doudou0o blog

沉淀知识 分享知识


  • Home

  • Archives

  • Tags

  • About

  • Search

特征处理之(四):缺失值和组合

Posted on 2019-02-07 Views:

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已!
很多情况下,数据总有可能缺失,但是若是放任不管可能造成严重的后果甚至模型无法收敛,所以我们得利用已有的信息进行数据填充来降低损失。特征组合是将不同的特征进行组合,生成新的特征,这种方式能提升模型更大的非线性能力和拟合能力。

特征处理之缺失值填充和特征组合变换

缺失值填充

一、为什么要进行缺失值填充

数据缺失在许多研究领域都是一个复杂的问题。对数据挖掘来说,空值的存在,造成了以下影响:

  1. 模型会丢失很多有用的信息

  2. 使得模型挖掘过程中陷入混乱,导致不可靠输出

  3. 依赖模型本身,无法很好地处理缺失值的情况,导致不确定性

另外数据缺失也分为三类:

  • 1) 完全随机缺失

  • 2) 随机缺失

  • 3) 非随机缺失

二、如何进行缺失值填充

2.1 统计填充

利用特征本身的数据进行对缺失值填充。思想是既然缺失了不知道他的值,那么就用最平常的值给它填不上,不要造成混乱,期望其他特征能表达出该样本的特性。

所以利用特征本身的数据,计算出平均值或者中位数,或者其他统计型的平常数据,来填充缺失值。

2.2 相似填充

利用其他不缺失的特征,找到相似的样本,用相似样本的该特征来对缺失值填充。思想是用相似样本来仿照出来值会更加靠谱。

其中KNN方式填充,是比较常见的。利用非确实的特征,找到距离其最近的几个样本。利用这几个样本来帮助填充缺失值。

特征组合变换

一、特征组合变换有什么作用

通过对单独的特征进行变换和组合,能够得到新的特征,这些新特征自带非线性能力,提升了模型的表达,很大程度帮助提升结果。

  1. 增加模型的表达能力

  2. 变相提升模型非线性能力

  3. 得到更加有效的特征

二、单特征变换

单特征变换,就如图一样,有几种简单的变换方式。形成新的特征。

三、多项式变换

多项式变换是指两个或多个特征进行组合变换,生成高次特征。

结语

特征处理是在机器学习中占据非常重要的地位,特征工程决定了整个模型的上限,而特征工程中最基础的就是特征处理。本篇主要回顾下特征处理中的缺失值填充和特征组合。最后最后拿出成果:

  1. 什么是缺失值填充/特征组合(这俩简单到不用解释了吧)
  2. 缺失值填充/特征组合有什么作用
  3. 缺失值填充/特征组合如何操作

附录

特征处理PPT

doudou0o WeChat Pay

WeChat Pay

doudou0o Alipay

Alipay

# Algorithm
特征处理之(三):离散化
机器学习扫盲
  • Table of Contents
  • Overview
doudou0o

doudou0o

Never forget what you are, for surely the world will not. Make it your strength. Then it can never be your weakness. Armor yourself in it, and it will never be used to hurt you.
15 posts
5 tags
  1. 1. 特征处理之缺失值填充和特征组合变换
  2. 2. 缺失值填充
    1. 2.1. 一、为什么要进行缺失值填充
    2. 2.2. 二、如何进行缺失值填充
      1. 2.2.1. 2.1 统计填充
      2. 2.2.2. 2.2 相似填充
  3. 3. 特征组合变换
    1. 3.1. 一、特征组合变换有什么作用
    2. 3.2. 二、单特征变换
    3. 3.3. 三、多项式变换
  4. 4. 结语
  5. 5. 附录
© 2022 doudou0o
Powered by Hexo v3.9.0
|
Theme – NexT.Gemini v7.3.0