分享

求教如何处理spark机器学习数据

windowsgy 发表于 2016-5-3 20:30:53 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 3 9207
诸位老师,我想请教如何处理分类算法决策树和贝叶斯数据处理方法,针对如下数据结构中分类数据应采用什么方法处理分类数据?
分类
分类
分类
数值
数值
数值
标签
IP
ID
TYPE
COUNT
INTCOUNT
SUBINTCOUNT
LABLE
10.1.1.1
123
A
12
123
345
1
10.1.1.2
13
C
41
126
25
0
10.1.1.3
452
D
5124
48
35
1
10.1.1.4
265
E
234
46
84
1
10.1.1.5
162
E
2134
74
63
0
10.1.1.6
45
C
324
345
64
1
10.1.1.7
97
D
4634
25
25
0
10.1.1.8
28
E
678
35
35
1
10.1.1.9
2
C
36
84
35
1
10.1.1.10
55
C
6463
63
63
0
10.1.1.11
534
D
63
64
64
1
10.1.1.12
3
B
64
6
3
1
10.1.1.13
45
C
66
6
5
0
10.1.1.14
345
E
46
3
84
1
10.1.1.15
34
C
4
5
63
1
10.1.1.16
56
C
6
4
64
1

已有(4)人评论

跳转到指定楼层
langke93 发表于 2016-5-3 21:42:58
看你像得出什么,你的目标是什么。
对于这些数据都是已知,可以使用决策树

点评

大神,很多例子中提及,要对训练数据进行处理。多数是连续变量,对于分类变量有的介绍采用one_hot编码方式处理,可我一直没有找到好的方法,有人也说分类数据在进行决策树训练时不需要处理,直接toDouble即可。  发表于 2016-5-3 22:03
回复

使用道具 举报

levycui 发表于 2016-5-10 11:45:35
本帖最后由 levycui 于 2016-5-10 11:47 编辑

结果 标签1或0   , 建议使用决策树算法,不知道你1和0代表什么,假如有些概率相关的数据就使用贝叶斯
回复

使用道具 举报

levycui 发表于 2016-5-10 11:48:50
决策树
http://www.aboutyun.com/forum.ph ... id=17776&extra=

贝叶斯
http://www.aboutyun.com/forum.ph ... id=18350&extra=

你可以看下文章,再深入了解下,自己就可以判断了
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条