分享

关于数据处理维度等

企业中,一般做分类或者聚类,预处理结束后有多少维度?
1T的数据量,大概有多少条数据,做分析的话,模型一般多久能跑完?
(我知道有人会回答具体情况具体分析,这样的回答就不用了,我就是没做过挖掘,想知道真实的量化的情况,谢谢)

已有(5)人评论

跳转到指定楼层
qcbb001 发表于 2017-5-17 21:16:38
首先需要明白什么是维度
维度(也简称为维)是人们观察数据的角度。
例如我们通过时间,来查看网页的访问量。
通过时间来查看企业盈利等
时间就是一个维度


回复

使用道具 举报

w123aw 发表于 2017-5-18 08:16:14
个人理解:说下个人观点,希望多交流。
首先一楼说的对的。
数据维度应该就是以一个为标准,然后去获取,我们所得到的数据,然后从这些数据中,我们得到对这个结果评价。如好,坏,分类等。
例如:中国移动,想对用户细分,了解用户消费习惯。
由于数据不一样。因此通过数据的预处理后。从六个角度去分析:
上班电话时长/总通话时长 下班时间电话时长  周末电话通话时长  国际电话通话时长  总通话时长  平均每次通话时长
通过某个算法,多次迭代,会得到结果。对客户端分类
1.png



回复

使用道具 举报

levycui 发表于 2017-5-18 09:40:55
个人理解:
对于分类或者聚类,我公司一般是分类多一些,这个根据业务的需求,
维度问题,首先收集好数据后,将数据进行异常缺省处理,我们一般使用20多个维度进行预测,如果维度多的话可以使用降维处理,如果维度少的话,寻找增加维度,基本上维度越多预测越准确,有时候增加一个维度反倒准确率下降,就可以去除这个维度,寻找新的维度,不断调试的过程。
回复

使用道具 举报

abc50319 发表于 2017-5-18 17:43:28
一般是时间和空间维度吧,再根据实际的也无需求来考虑维度的问题
回复

使用道具 举报

langke93 发表于 2017-5-18 17:47:38
abc50319 发表于 2017-5-18 17:43
一般是时间和空间维度吧,再根据实际的也无需求来考虑维度的问题

这个还真不是。维度都是自己定义的。其实就是按照我们的思想。看事情不同的人有不同的角度,自然不同的思路。时间和空间就固定死了。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条