> 科技
大数据的数据预处理包括哪些方面(大数据预处理的方法主要包括哪些)
导语:大数据预处理七步法(四):数据规约
1.数据规约策略:
①维规约:减少考虑的随机变量或属性的个数,或把原数据变换或投影到更小的空间,具体方法:小波变换、主成分分析等。
②数量规约:用替代的、较小的数据表示形式替换原数据 具体方法包括:抽样和数据立方体聚集
③数据压缩:无损压缩:能从压缩后的数据重构恢复原来的数据,不损失信息。有损压缩:只能近似重构原数据。
抽样:
图1
多阶段抽样:
图2
基于Hash函数取样技术SHF
图3
数据立方体聚集
图4
下钻是将一个大范围度量细化,如图将季度分成月份表示,上卷与其相反,将城市上卷为国家。
2.机器学习中的降维方法:
正在学习,日后学到再补。
图5
3.主成分分析法---线性降维方法
在降维之后能最大程度的保持数据的内在信息,通过衡量在投影方向上的数据方差大小来衡量该方向的重要程度。
图6
4.线性判别分析----有监督的线性降维方法
数据在降维后能很容易得被区分开,将高维的模式样本投影到最佳鉴别矢量空间,保证模式样本在新子空间内有最大类间距离和最小的类内距离,即模式在该空间中有最佳的可分离性。
图7
5.局部线性嵌入LLE----非线性降维方法
能使降维后的数据保持原有的流形结构。如果数据分布在整个封闭的球面上,LLE则不能将其映射到二维空间,且不能保持原有的数据流形,于是在处理数据时首先要保证数据不在封闭的球面或者椭圆内。
图示将三维曲面数据映射到二维坐标轴内,还能保证其大致的流线型。
图8
免责声明:本站部份内容由优秀作者和原创用户编辑投稿,本站仅提供存储服务,不拥有所有权,不承担法律责任。若涉嫌侵权/违法的,请反馈,一经查实立刻删除内容。本文内容由快快网络小美创作整理编辑!