降维技术怎么结合使用好呢？

本帖最后由 zeus_lhl 于 2017-7-11 23:43 编辑

1. 各种实用的降维技术都有哪些优缺点呢？
2. 比如有上千甚至上万个维度，想用降维，又想降维后有业务上的可解释性，怎么结合着来处理呢？越详细越好，谢谢大神们

desehawk · 发表于 2017-7-12 18:41:49

对这个不太擅长，下面内容，仅供参考

降维方法 __ 属性选择：过滤法；包装法；嵌入法；
　　　　　　|_ 映射方法 _线性映射方法：PCA、FDA等
　　　　　　　　　　　　|_非线性映射方法：
　　　　　　　　　　　　　　　　　　　　　　|__核方法：KPCA、KFDA等
　　　　　　　　　　　　　　　　　　　　　　|__二维化：
　　　　　　　　　　　　　　　　　　　　　　|__流形学习：ISOMap、LLE、LPP等。
　　　　　　　　　　　　|__其他方法：神经网络和聚类

非线性降维
代表方法有：KPCA，KFDA。

KPCA的基本思想：通过Kernel trick将PCA投影的过程通过内积的形式表达出来。将高维向量ϕ(x)与对应特向β的内积转换成低维的核函数表示。
KPCA
基于核的非线性降维方法的优缺点：
　　优点：具有核方法的优点。
　　缺点：核的不同选择影响效果。

深度学习，聚类降维
　　深度学习降维优缺点：
　　优点：1）所提取特征的代表性强
　　缺点：1）可解释性差。2）目的性不强

更多楼主可以在找找，希望有一定的帮助

zeus_lhl · 发表于 2017-7-13 11:45:03

desehawk 发表于 2017-7-12 18:41
对这个不太擅长，下面内容，仅供参考

降维方法 __ 属性选择：过滤法；包装法；嵌入法；

谢谢回复不过不是我想要的答案

nextuser · 发表于 2017-7-13 11:50:52

zeus_lhl 发表于 2017-7-13 11:45
谢谢回复不过不是我想要的答案

你这个需要写篇文章，问题太大了。最好找到自己的问题点在什么地方。

zeus_lhl · 发表于 2017-7-14 02:57:36

nextuser 发表于 2017-7-13 11:50
你这个需要写篇文章，问题太大了。最好找到自己的问题点在什么地方。

这么讲吧，第一个问题可以先不回答，可以的话，烦请大神针对第二个问题回答下。
补充一下，项目中，针对缺失值、离散值处理，和特征选择，特征降维，这三点，是怎么个流程，先做什么，再做什么，最后是怎么结合在一起的？
谢谢

zeus_lhl · 发表于 2017-7-14 02:58:44

nextuser 发表于 2017-7-13 11:50
你这个需要写篇文章，问题太大了。最好找到自己的问题点在什么地方。

不用详细讲某个点，只要把流程和用的技术（当然是可实施的），介绍一下就行

qcbb001 · 发表于 2017-7-14 14:31:34

zeus_lhl 发表于 2017-7-14 02:57
这么讲吧，第一个问题可以先不回答，可以的话，烦请大神针对第二个问题回答下。
补充一下，项目中，针对 ...

感觉楼主懂的挺多的，像流程等之类的，应该有自己的看法。可以说出来交流下。本人说点其他的。
对于数据的维度，其实就是从事物不同的角度看待问题，比如横看成岭侧成峰，其实讲的就是这个道理。我们看待事物也是，比如我们对某一个人的看法。老师是从学习的角度看待学生，父母是是否听话的角度来看待孩子等。上面我们能否用数学表示，反正个人感觉挺困难的。但是计算机用的是二进制，数学家可以用数学来表示任何事情。这就是数学的牛逼之处。所以用数学来表示我们生活中遇到的事情，这样也就产生了人工智能。

关于数据降维，其实我们可以自己降，但是我们没有规则的去降，只会让准确度更低。所以我们必须有规则的去做。而数学就给我们提供了规则，那就是数学表达式。

zeus_lhl · 发表于 2017-7-14 14:34:44

qcbb001 发表于 2017-7-14 14:31
感觉楼主懂的挺多的，像流程等之类的，应该有自己的看法。可以说出来交流下。本人说点其他的。
对于数据 ...

谢谢回复不过跑偏了，这不是这个帖子针对性想解决的问题

liyansong · 发表于 2017-7-14 14:54:44

nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn

einhep · 发表于 2017-7-14 17:27:53

本帖最后由 einhep 于 2017-7-14 17:30 编辑

zeus_lhl 发表于 2017-7-14 14:34
谢谢回复不过跑偏了，这不是这个帖子针对性想解决的问题

缺失值处理通常有如下的方法：

1.删除这些变量是缺失值的行；
2.如果预计该变量对于学习模型效果影响不大，可以对unknown值赋众数
3.可以使用数据完整的行作为训练集，以此来预测缺失值

数据降维，一般说的是维数约简（Dimensionality reduction）。它的思路是：将原始高维特征空间里的点向一个低维空间投影，新的空间维度低于原特征空间，所以维数减少了。在这个过程中，特征发生了根本性的变化，原始的特征消失了（虽然新的特征也保持了原特征的一些性质）。

特征选择，是从 n 个特征中选择 d (d<n) 个出来，而其它的 n-d 个特征舍弃。所以，新的特征只是原来特征的一个子集。没有被舍弃的 d 个特征没有发生任何变化。

图文精华

降维技术怎么结合使用好呢？

已有(10)人评论

活跃会员

热心会员

优秀版主

最佳新人

推荐 /2