分享

请教机器学习路线

想ai抽 发表于 2015-4-22 10:15:21 [显示全部楼层] 只看大图 回帖奖励 阅读模式 关闭右栏 7 24362
本人普本毕业,但是很有向上的新。一年地铁时间看了几十套IT相关资料。两年前自己定位的大数据方向,已经走在路上。现在对机器学习各种算法产生浓厚兴趣,求大牛指引一下学习路线。

自己目前拟定的:
1. 温习线代、概率论;【其实得恶补了,一直都没用过】
2. 购买《数据挖掘概念与基础》以及《机器学习》;
3. 看网上一些视频教程;
4. 查取相关资料,结合实例进行深度学习。



已有(7)人评论

跳转到指定楼层
想ai抽 发表于 2015-4-22 10:16:08
是只需要了解各种算法的思想就可以进行实际工作呢,还是必须要掌握到各个算法的公式?
回复

使用道具 举报

karo_lee 发表于 2015-4-22 10:38:13
大数据文摘授权转载
编译:焦剑,康欣;
校对:孙沁(Kiki);
大数据文摘[微信ID: BigDataDigest]
OK, 这些步骤不是那么简单。但是,它们都是可操作的,并且大多数步骤都是免费或者花钱很少,只是要你投入时间。
首先,什么是数据科学家? 数据科学 ,是一个多学科知识的交集,甚至包括黑客技巧。 数据科学家 ,是比软件工程师更擅长统计学,比统计学家更擅长软件工程的人。目前,数据科学家的 典型教育背景 是:高中5%,技校5%,大专14%,本科37%,硕士/专业学位31%,博士9%。

第一步:学好统计、数学和机器学习
数学:可汗学院(Khan Academy)的数学,MIT公开课的线性代数;统计学:Udacity和Openintro;机器学习:Stanford在线中吴恩达(Andrew NG)的机器学习,Coursera上John Hopkins的实用机器学习
第二步:学习编写代码
掌握计算机科学的基础知识;掌握从头至尾的开发过程(end-to-end development),因为你做的东西终将被整合到其它系统中;确定你的首选编程语言,开源的R , Python等,商业软件SAS, SPSS等。用DataCamp, tryR, Codecademy和Google Class进行交互式学习。

第三步:理解数据库
作为学生,你会经常与文本数据打交道。但是,一旦进入该领域,你会发现该领域几乎都是用数据库存储数据,如MySQL, Postgres, CouchDB, MongoDB, Cassandra等。
第四步:掌握数据整理、可视化和报表制作
1)数据整理,是将原始数据转换成方便实用的格式。可自学Coursera中John Hopkins的Getting and Cleaning Data课程,实用工具有DataWrangler和R。
2)数据可视化,是创建和研究数据的视觉表现。实用工具有ggvis, D3, vega。
3)数据报表,作为数据分析的最后一步,是将数据分析和结果制作成易于理解的报告。实用工具有Tableau, Spotfire和R Markdown。

第五步:提升到大数据级别
当你开始处理网络级规模的数据时,数据分析的基本方法和过程就都改变了。绝大多数的数据科学家要解决的问题,都无法在单机上完成。他们面对的是需要分布式处理的大型数据集,使用的工具是Hadoop,MapReduce,Apache Spark。

第六步:获得经验、实践,结交大牛
[古人云:]熟能生巧!你可以参加比赛,结交数据科学专家,通过小项目小试牛刀,培养自己的直觉。

第七步:实习、实战、或找份工作
甄别自己是不是一个真正的数据科学家的最佳途径,就是用你新学的知识迎难而上,进入数据分析的丛林。
第八步:关注并参与社区
关注网站:DataTau, Kdnuggets, fivethirtyeight, datascience101, r-bloggers;关注大牛:Hilary Mason, David Smith, Nate Silver, dj patil; 需要数据?上quandl看看。

完整信息图


来源:
1. http://blog.datacamp.com/how-to-become-a-data-scientist/ How-to-become-a-data-scientist.jpg

2. 【译者简介】
焦剑: 小牙医一名,因课题原因接触大数据,现正在努力学习相关知识中,希望在这里与大家交流学习。
孙沁(Kiki): 美国留学五年,现为Emory University生物统计在读硕士。对Clinical Trails, Cancer Prevention, HIV/AIDS以及Food Science/Nutrition的领域很感兴趣。毕业后希望在Pharmaceutical, Biotechnological Healthcare Industry或者Hospital工作,也想尝试医疗健康方向的咨询工作(Life Science Consulting)。希望结交对医疗数据有兴趣的朋友,也希望大家帮忙推荐此方向的实习和工作机会给我。
康欣: 博士,西门子中国研究院高级研究员。多年从事图像及数据处理和分析、计算机视觉、模式识别、机器学习、增强现实等领域的技术研究和创新应用。希望借此平台,与大数据分析爱好者以及专家学者交流。
更多相关知识请回复“ 数据科学家 ”。
合作推广|广告软文请加qq:365242293。
友情推荐:数说互联网(ID: shushuoweb ),在这里,读懂数据;在这里,理解互联。
回复 “ 月光宝盒 ”, 开启精彩的数据人生 ;
数据分析 (ID: ecshujufenxi ) 是WeMedia自媒体成员之一,WeMedia是自媒体第一联盟,覆盖3000万人群。
原文:http://www.tuicool.com/articles/Yre6RfI
回复

使用道具 举报

想ai抽 发表于 2015-4-22 11:02:13
karo_lee 发表于 2015-4-22 10:38
大数据文摘授权转载
编译:焦剑,康欣;
校对:孙沁(Kiki);

copy。谢谢,很好的参考
回复

使用道具 举报

想ai抽 发表于 2015-4-22 11:03:26
karo_lee 发表于 2015-4-22 10:38
大数据文摘授权转载
编译:焦剑,康欣;
校对:孙沁(Kiki);

我说这么眼熟呢,,,这篇文章我看过
回复

使用道具 举报

karo_lee 发表于 2015-4-22 11:28:12
想ai抽 发表于 2015-4-22 11:03
我说这么眼熟呢,,,这篇文章我看过

那就开始干吧
回复

使用道具 举报

非鱼 发表于 2015-4-22 14:01:53
mahout可以系统学
回复

使用道具 举报

我喜欢你pig2 发表于 2015-8-16 15:16:16
恩、大家加油啊、
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条