# 机器学习基础

# 决策树

普通决策树（如CART决策树）和基于梯度的决策树（如梯度提升决策树，GBDT）的主要区别体现在模型构建方式和目标优化方法上。在普通决策树中，基尼系数和熵计算的公式中用到的表示的是某个类别在节点中的概率，反映了某个类别在当前节点中样本的相对频率，用于评估节点的纯度或不确定性。

普通决策树递归地对数据进行划分，基于某种标准（如基尼系数或信息增益）选择特征和分裂点构建的。其目标是最大化子节点的纯度。

决策过程：

其中，损失函数可能是基尼系数或熵：

树的构建是贪心的，每次选取当前最优分裂点。

回归树会尝试通过“年龄”变量来分割数据集，确保每个分割后的子集的平均收入差异最小（即最小化均方误差）

随机森林是一种集成学习算法，基于决策树或回归树构建。它通过构建多个决策树或回归树，并通过投票或平均值来提高模型的稳定性和准确性。随机森林的核心思想是通过引入随机性来降低单棵树的过拟合现象，并增强模型的泛化能力。

GBDT 是一种集成模型，通过不断迭代训练多个决策树来优化模型性能。与普通决策树不同，GBDT的每棵树是在前一棵树的预测残差（误差）的基础上构建的，目的是通过迭代地最小化残差来提高预测精度。

需要注意的是，GBDT并不是真正的用决策树预测结果，而是用决策树作为梯度指导去优化一个模型，使模型能达到更好的性能。

GBDT的目标是最小化整体损失函数：

其中：

梯度提升步骤：

公式：

公式：

核心思想: 基于梯度提升决策树（Gradient Boosting Decision Tree, GBDT），采用 叶子节点增长策略（Leaf-wise Growth）和 基于直方图的快速训练 方法，通过梯度信息逐步优化决策树。
适用场景: 当数据量较大且特征维度较高时（尤其是稀疏数据），LightGBM 在速度和内存使用上有优势。
优点: 训练速度快，适合大规模、高维稀疏数据，且处理类别型特征效果较好。

公式：

其中，是树的复杂度惩罚项，是正则化系数。

交叉熵误差公式 KL散度公式逻辑回归 SVM