编程开发 购物 网址 游戏 小说 歌词 快照 开发 股票 美女 新闻 笑话 | 汉字 软件 日历 阅读 下载 图书馆 编程 China
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
移动开发 架构设计 编程语言 互联网 开发经验 Web前端 开发总结
开发杂谈 系统运维 研发管理 数据库 云 计 算 Java开发
VC(MFC) Delphi VB C++(C语言) C++ Builder 其它开发语言 云计算 Java开发 .Net开发 IOS开发 Android开发 PHP语言 JavaScript
ASP语言 HTML(CSS) HTML5 Apache MSSQL数据库 Oracle数据库 PowerBuilder Informatica 其它数据库 硬件及嵌入式开发 Linux开发资料
  编程开发知识库 -> 互联网 -> 数据分箱 -> 正文阅读
 

[互联网]数据分箱[第1页]

转载自:http://www.cangfengzhe.com/sjwj/2908.html
数据分箱的适用情形
数据分箱是下列情形下常用的方法:
1.某些数值自变量在测量时存在随机误差,需要对数值进行平滑以消除噪音。
2.有些数值自变量有大量不重复的取值,对于使用<、>、=等基本操作符的算法(如决策树)而言,如果能减少这些不重复取值的个数,就能提高算法的速度。
3.有些算法只能使用分类自变量,需要把数值变量离散化。
数据被归入几个分箱之后,可以用每个分箱内数值的均值、中位数或边界值来替代该分箱内各观测的数值,也可以把每个分箱作为离散化后的一个类别。例如,某个自变量的观测值为1,2.1,2.5,3.4,4,5.6,7,7.4,8.2.假设将它们分为三个分箱,(1,2.1,2.5),(3.4,4,5.6),(7,7.4,8.2),那么使用分箱均值替代后所得值为(1.87,1.87,1.87),(4.33,4.33,4.33),(7.53,7.53,7.53),使用分箱中位数替代后所得值为(2.1,2.1,2.1),(4,4,4),(7.4,7.4,7.4),使用边界值替代后所得值为(1,2.5,2.5),(3.4,3.4,5.6),(7,7,8.2)(每个观测值由其所属分箱的两个边界值中较近的值替代)。
数据分箱的常用方法
假设要将某个自变量的观测值分为k个分箱,一些常用的分箱方法有:1.无监督分箱(1)等宽分箱:将变量的取值范围分为k个等宽的区间,每个区间当作一个分箱。
(2)等频分箱:把观测值按照从小到大的顺序排列,根据观测的个数等分为k部分,每部分当作一个分箱,例如,数值最小的1/k比例的观测形成第一个分箱,等等。
(3)基于k均值聚类的分箱:使用第五章将介绍的k均值聚类法将观测值聚为k类,但在聚类过程中需要保证分箱的有序性:第一个分箱中所有观测值都要小于第二个分箱中的观测值,第二个分箱中所有观测值都要小于第三个分箱中的观测值,等等。
2.有监督分箱
在分箱时考虑因变量的取值,使得分箱后达到最小熵(minimumentropy)或最小描述长度(minimumdescriptionlength)。这里仅介绍最小熵。
(1)假设因变量为分类变量,可取值1,…,J。令pl(j)表示第l个分箱内因变量取值为j的观测的比例,l=1,…,k,j=1,…,J;那么第l个分箱的熵值为Jj=1[-pl(j)×log(pl(j))]。如果第l个分箱内因变量各类别的比例相等,即pl(1)=…=pl(J)=1/J,那么第l个分箱的熵值达到最大值;如果第l个分箱内因变量只有一种取值,即某个pl(j)等于1而其他类别的比例等于0,那么第l个分箱的熵值达到最小值。
(2)令rl表示第l个分箱的观测数占所有观测数的比例;那么总熵值为kl= ?1rl×Jj=1[-pl(j)×log(pl(j ?))]。需要使总熵值达到最小,也就是使分箱能够最大限度地区分因变量的各类别。
阅读全文
举报
标签: 本文已收录于以下专栏:

发表评论
HTML/XML objective-c Delphi Ruby PHP C# C++ JavaScript Visual Basic Python Java CSS SQL 其它
相关文章推荐
数据预处理练习 等频分箱、one_hot(独热编码)、数据归一化 #python
任务1:数据基础训练1.输入:一列数值型数据,输出:与输入等长的一列数据,每一项是输入数据在整列中的排序序号。如,输入:0.1 0.8 0.25,输出1 3 2 2.求给定一组数值型数据的均值、方差...
qq_34263279 2016-11-23 17:39 492 R语言︱噪声数据处理、数据分组——分箱法(离散化、等级化)
分箱法在实际案例操作过程中较为常见,能够将一些数据离散化,等级化,比如年龄段,我们并不想知道确切的几岁,于是乎可以将其分组、分段。 基础函数中cut能够进行简单分组,并且可以用于等宽分箱法。 cut函...
sinat_26917383 2016-11-25 17:06 8224 C# 拆分箱号(包含字母,逗号,逗号,横线)
//one   "(283),(284),B(285);B(286),(287),(288)"; 输出结果是: 283-284,B285;B286,287-288 //two   "(283),(28...
kongwei521 2013-12-18 11:28 802 dlmalloc 2.8.6 源码详解—[2]分箱(bins)
转载自:vector032.2 分箱(bins)内存分配器设计中需要解决的两个重要问题就是空间和时间的矛盾.所谓空间矛盾是指要减少两方面的内存浪费,一是来自分配器本身overhead信息的占用,另外则...
txx_683 2016-12-04 21:28 176 金融风控-->申请评分卡模型-->特征工程(特征分箱,WOE编码)
这篇博文主要讲在申请评分卡模型中常用的一些特征工程方法,申请评分卡模型最多的还是logsitic模型。先看数据,我们现在有三张表:已加工成型的信息:Master表 idx:每一笔贷款的unique ...
Mr_tyting 2017-07-16 21:26 942 离散化/分箱/分组(Discretization / binning / Interactive grouping)
1、监督离散化(supervised discretization) 考虑类别信息(已知X 的值和Y 的值)。检验方法如:卡方检验(ChiMerge 慢、Chi-square、Chi2、CAIM、C...
textboy 2015-07-22 19:15 4783
t15600624671 +关注
原创 10 粉丝 喜欢 0 码云  
他的最新文章 更多文章
数据分箱 Python实现逻辑回归(Logistic Regression in Python) 交互式数据可视化在Python中用Bokeh实现
编辑推荐 最热专栏 史上最简单的 MySQL 教程 区块链开发技术分享 死磕Java ARKit开发 从高考到程序员 数据预处理练习 等频分箱、one_hot(独热编码)、数据归一化 #python R语言︱噪声数据处理、数据分组——分箱法(离散化、等级化) C# 拆分箱号(包含字母,逗号,逗号,横线) dlmalloc 2.8.6 源码详解—[2]分箱(bins)
在线课程

自然语言处理在“天猫精灵”的实践应用
讲师:姜飞俊

蚂蜂窝大数据平台架构及Druid引擎实践
讲师:汪木铃
目录
喜欢 取消喜欢 收藏 评论 分享
  互联网 最新文章
Stanford 英文词性标注(Part-of-speech)缩
基于窗口的实时统计
求解矩阵最短路径问题
SSL握手通信详解及linux下c/c++ SSL Socket
关于服务器上(Docker中)运行Java程序时区
python爬虫系列(六):强大的beautifulsou
[计算机网络笔记]第四部分——网络层 选路算
11.28 北京,念腾讯暑假,不思则惘吧!
web安全之
滑块验证码识别 java版本
上一篇文章      下一篇文章      查看所有文章
加:2017-09-28 16:13:45  更:2017-09-28 16:13:57 
VC(MFC) Delphi VB C++(C语言) C++ Builder 其它开发语言 云计算 Java开发 .Net开发 IOS开发 Android开发 PHP语言 JavaScript
ASP语言 HTML(CSS) HTML5 Apache MSSQL数据库 Oracle数据库 PowerBuilder Informatica 其它数据库 硬件及嵌入式开发 Linux开发资料
360图书馆 软件开发资料 文字转语音 购物精选 软件下载 新闻资讯 小游戏 Chinese Culture 股票 三丰软件 开发 中国文化 网文精选 阅读网 看图 日历 万年历 2018年9日历
2018-9-21 19:24:29
多播视频美女直播
↓电视,电影,美女直播,迅雷资源↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  编程开发知识库