分享

降维技术怎么结合使用好呢?

zeus_lhl 发表于 2017-7-11 23:41:08 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 10 10991
本帖最后由 zeus_lhl 于 2017-7-11 23:43 编辑

1. 各种实用的降维技术都有哪些优缺点呢?
2. 比如有上千甚至上万个维度,想用降维,又想降维后有业务上的可解释性,怎么结合着来处理呢?越详细越好,谢谢大神们

已有(10)人评论

跳转到指定楼层
desehawk 发表于 2017-7-12 18:41:49
对这个不太擅长,下面内容,仅供参考

降维方法 __ 属性选择:过滤法;包装法;嵌入法;
      |_ 映射方法 _线性映射方法:PCA、FDA等
            |_非线性映射方法:
                      |__核方法:KPCA、KFDA等
                      |__二维化:
                      |__流形学习:ISOMap、LLE、LPP等。
            |__其他方法:神经网络和聚类


非线性降维
代表方法有:KPCA,KFDA。

KPCA的基本思想:通过Kernel trick将PCA投影的过程通过内积的形式表达出来。将高维向量ϕ(x)与对应特向β的内积转换成低维的核函数表示。
KPCA
基于核的非线性降维方法的优缺点:
  优点:具有核方法的优点。
  缺点:核的不同选择影响效果。


深度学习,聚类降维
  深度学习降维优缺点:
  优点:1)所提取特征的代表性强
  缺点:1)可解释性差。2)目的性不强

更多楼主可以在找找,希望有一定的帮助

回复

使用道具 举报

zeus_lhl 发表于 2017-7-13 11:45:03
desehawk 发表于 2017-7-12 18:41
对这个不太擅长,下面内容,仅供参考

降维方法 __ 属性选择:过滤法;包装法;嵌入法;

谢谢回复 不过不是我想要的答案

回复

使用道具 举报

nextuser 发表于 2017-7-13 11:50:52
zeus_lhl 发表于 2017-7-13 11:45
谢谢回复 不过不是我想要的答案

你这个需要写篇文章,问题太大了。最好找到自己的问题点在什么地方。
回复

使用道具 举报

zeus_lhl 发表于 2017-7-14 02:57:36
nextuser 发表于 2017-7-13 11:50
你这个需要写篇文章,问题太大了。最好找到自己的问题点在什么地方。

这么讲吧,第一个问题可以先不回答,可以的话,烦请大神针对第二个问题回答下。
补充一下,项目中,针对缺失值、离散值处理,和特征选择,特征降维,这三点,是怎么个流程,先做什么,再做什么,最后是怎么结合在一起的?
谢谢

回复

使用道具 举报

zeus_lhl 发表于 2017-7-14 02:58:44
nextuser 发表于 2017-7-13 11:50
你这个需要写篇文章,问题太大了。最好找到自己的问题点在什么地方。

不用详细讲某个点,只要把流程和用的技术(当然是可实施的),介绍一下就行
回复

使用道具 举报

qcbb001 发表于 2017-7-14 14:31:34
zeus_lhl 发表于 2017-7-14 02:57
这么讲吧,第一个问题可以先不回答,可以的话,烦请大神针对第二个问题回答下。
补充一下,项目中,针对 ...

感觉楼主懂的挺多的,像流程等之类的,应该有自己的看法。可以说出来交流下。本人说点其他的。
对于数据的维度,其实就是从事物不同的角度看待问题,比如横看成岭侧成峰,其实讲的就是这个道理。我们看待事物也是,比如我们对某一个人的看法。老师是从学习的角度看待学生,父母是是否听话的角度来看待孩子等。上面我们能否用数学表示,反正个人感觉挺困难的。但是计算机用的是二进制,数学家可以用数学来表示任何事情。这就是数学的牛逼之处。所以用数学来表示我们生活中遇到的事情,这样也就产生了人工智能。

关于数据降维,其实我们可以自己降,但是我们没有规则的去降,只会让准确度更低。所以我们必须有规则的去做。而数学就给我们提供了规则,那就是数学表达式。
回复

使用道具 举报

zeus_lhl 发表于 2017-7-14 14:34:44
qcbb001 发表于 2017-7-14 14:31
感觉楼主懂的挺多的,像流程等之类的,应该有自己的看法。可以说出来交流下。本人说点其他的。
对于数据 ...

谢谢回复 不过跑偏了,这不是这个帖子针对性想解决的问题

回复

使用道具 举报

liyansong 发表于 2017-7-14 14:54:44
nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn
回复

使用道具 举报

einhep 发表于 2017-7-14 17:27:53
本帖最后由 einhep 于 2017-7-14 17:30 编辑
zeus_lhl 发表于 2017-7-14 14:34
谢谢回复 不过跑偏了,这不是这个帖子针对性想解决的问题

缺失值处理通常有如下的方法:

1.删除这些变量是缺失值的行;
2.如果预计该变量对于学习模型效果影响不大,可以对unknown值赋众数
3.可以使用数据完整的行作为训练集,以此来预测缺失值

数据降维,一般说的是维数约简(Dimensionality reduction)。它的思路是:将原始高维特征空间里的点向一个低维空间投影,新的空间维度低于原特征空间,所以维数减少了。在这个过程中,特征发生了根本性的变化,原始的特征消失了(虽然新的特征也保持了原特征的一些性质)。

特征选择,是从 n 个特征中选择 d (d<n) 个出来,而其它的 n-d 个特征舍弃。所以,新的特征只是原来特征的一个子集。没有被舍弃的 d 个特征没有发生任何变化。
回复

使用道具 举报

12下一页
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条