集成学习详解
一、概念篇
集成学习的核心思想是什么?
集成学习通过组合多个单一模型的预测结果,综合各模型的优势,以提高整体的泛化能力和预测性能。它建立在“群策群力”的原理上,即多个弱模型的组合能够表现出比单一强模型更好的性能。
集成学习与传统单一模型相比的本质区别?
传统单一模型的学习过程是从训练数据中找到一个最佳的假设,而集成学习则是构建多个模型,再通过某种策略(如投票、加权平均、模型融合)组合各模型的输出结果来降低误差,增加模型的泛化能力。
从偏差-方差分解的角度,解释集成学习为什么能提升模型性能?
单个模型通常存在较大的偏差或方差问题,而集成学习通过多个模型的融合,能够显著降低方差,同时保持甚至降低偏差,从而提高整体的泛化性能。
集成学习有效性需要满足哪些前提条件?
- 基学习器具备一定的差异性(多样性)
- 基学习器的性能要高于随机猜测
- 集成策略要能有效综合基学习器的优势
二、Boosting 篇
解释一下 Boosting 的迭代优化过程
Boosting