您好,欢迎来到年旅网。
搜索
您的当前位置:首页【特征工程】连续数据特征离散化的方法

【特征工程】连续数据特征离散化的方法

来源:年旅网

离散化

背景

连续数据经常采用离散化处理之后再放入模型。离散化可以理解为提取特征的过程,比如在LR模型,由于是广义线性模型表达能力有限,因此通过特征离散化来了提高非线性学习能力

主要方法

等距离散

取值范围均匀划成n等份,每份的间距相等

等频离散

均匀分为n等份,每份内包含的观察点数相同

优化离散

大致有两类方法:
1. 卡方检验方法:(统计样本的实际观测值与理论推断值之间的偏离程度,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合)
- 方法:找到一个点看,左右2个区间,在目标值上分布是否有- 显著差异,有显著差异就,否则就忽略。这个点可以每次找差异最大的点
- 合并方法:先划分如果很小单元区间,按顺序合并在目标值上分布不显著的相邻区间,直到收敛
2. 信息增益方法:
- 方法:找到一个点看,左右2个区间,看前后信息增益变化阈值,如果差值超过阈值(正值,分列前-后信息熵),则。每次找差值最大的点做点,直到收敛
- 合并方法:先划分 如果很小单元区间,按顺序合并信息增益小于阈值的相邻区间,直到收敛

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- oldu.cn 版权所有 浙ICP备2024123271号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务