您的当前位置：首页【特征工程】连续数据特征离散化的方法

【特征工程】连续数据特征离散化的方法

来源：年旅网

离散化

背景

连续数据经常采用离散化处理之后再放入模型。离散化可以理解为提取特征的过程，比如在LR模型，由于是广义线性模型表达能力有限，因此通过特征离散化来了提高非线性学习能力

主要方法

等距离散

取值范围均匀划成n等份，每份的间距相等

等频离散

均匀分为n等份，每份内包含的观察点数相同

优化离散

大致有两类方法：
1. 卡方检验方法：（统计样本的实际观测值与理论推断值之间的偏离程度，卡方值越大，越不符合；卡方值越小，偏差越小，越趋于符合）
- 方法：找到一个点看，左右2个区间，在目标值上分布是否有- 显著差异，有显著差异就，否则就忽略。这个点可以每次找差异最大的点
- 合并方法：先划分如果很小单元区间，按顺序合并在目标值上分布不显著的相邻区间，直到收敛
2. 信息增益方法：
- 方法：找到一个点看，左右2个区间，看前后信息增益变化阈值，如果差值超过阈值（正值，分列前-后信息熵），则。每次找差值最大的点做点，直到收敛
- 合并方法：先划分如果很小单元区间，按顺序合并信息增益小于阈值的相邻区间，直到收敛

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

违法及侵权请联系：TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务