分享

Spark 高级分析:前言

feilong 2017-8-18 11:02:47 发表于 学习线路 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 3 7349

问题导读

1.这本书是关于什么的?
2.这本书里有什么?
3.什么情况下,使用书中样例代码无需授权?






前言

我不觉得我有很多遗憾,但是很难相信在2011的某个特定的懒惰时刻,当我在研究如何最好地在计算机集群上分配棘手的离散优化问题时,好的事物都出现了。我的导师说了他听说的新生Spark的事了,我基本上把这个概念写得太好以至于就像真的,之后立即回到我关于MapReduce的本科论文。从那以后,Spark和我都成熟了一点,但我们中的一个已经看到了一个迅速上升,这不可避免的与“点燃”这个双关语有关。两年后,这变得相当清晰,以至于Spark成为了是值得关注的事物。

Spark的长系的前辈,从运行MPI MapReduce,可以编写程序,利用大量的资源而抽象出来的分布式系统的细节。尽管数据处理需求推动了这些框架的发展,但在某种程度上,大数据领域已经变得与这些框架相关,其范围由这些框架可以处理的内容来定义。Spark的希望是把这一点更进一步-使编写分布式程序感觉像写普通程序。

Spark将极大地给ETL管道带来巨大的性能提升,减轻MapReduce程序员对Hadoop日常绝望的痛苦。但对我来说,令人兴奋的事情一直是它为复杂分析打开的东西。有了支持迭代算法和交互式探索的范例,Spark最终成为一个开源框架,允许数据科学家在大型数据集上工作。

我认为教数据科学最好的方法是举例。为此,我和我的同事们一起编写了一本应用程序,试图触及大规模分析中最常用的算法、数据集和设计模式之间的相互作用。这本书并不要从头到尾读完。从页到章节,看起来像你要完成的东西。或者干脆按你的兴趣来。

——桑迪

这本书里有什么?

第一章将把Spark放在数据科学和大数据分析的更广泛的背景下。之后,每章将包括一个独立的分析使用Spark。第二章将通过一个数据清洗实例介绍Spark和Scala数据处理基础。接下来的几章将深入研究Spark机器最基本的部分,在一些典型的应用程序中应用一些最常见的算法。剩下的章节更像是一个抓彩,在一些特别的应用程序上会使用Spark。例如,通过文本中潜在的语义关系或分析基因组数据查询维基百科。

致谢

不用说,你不会阅读这本书如果没有Apache Spark和MLlib。我们都要感谢已经建立和开放源代码的团队,以及成百上千的贡献者加入了它。
我们要感谢所有帮助审查和提高文本和本书的内容的人:Michael Bernico,Chris Fregly,Debashish Ghosh,Juliet Hougland,Nick Pentreath。感谢所有!
感谢Marie Beaugureau和O’Reilly,感谢其对出版这本书强大的支持。
待办事项:完成确认

使用代码示例

可供下载的补充材料(代码示例、练习等)https://github.com/sryza/aas
这本书是帮助你完成工作的。一般来说,如果有了这本书提供示例代码,你可以在你的程序和文档中使用它。您不需要与我们联系以获得许可,除非您复制了代码的重要部分。例如,编写一个程序,使用这本书中的几段代码,不需要许可。销售或分销的O'Reilly图书光盘实例不需要许可。通过引用这本书和引用来回答一个问题,示例代码不需要权限。将大量示例代码从本书导入到产品文档中确实需要许可。
我们提倡,但不需要,署名。一个署名通常包括标题,作者,出版社,ISBN。例如:“Spark高级分析 作者 莱亚,莱色森,欧文和威尔(O'Reilly)。版权所有2014版权持有者,978-0-596-xxxx-x.”

如果你使用的代码例子属于合理使用或上述许可,随时与我们联系,permissions@oreilly.com

Safari@Books Online

Safari图书在线是一个按需数字图书馆,从书和视频形式提供来自世界领先的科技和商业作家之手的专家内容。技术专业人员、软件开发人员、网页设计师以及商业和创意专业人士将Safari图书作为他们研究、解决问题、学习和认证培训的主要资源。
Safari在线图书为企业、政府、教育和个人提供了一系列的计划和定价。
成员有机会获得成千上万的书籍,培训视频,从出版商如O'Reilly媒体在一个完全可搜索的数据库出版前的手稿,Prentice Hall专业、Addison Wesley专业、微软出版社,山姆,阙,Peachpit出版社,出版社,思科出版社,John威利& Sons,技术,摩根-考夫曼,IBM红皮书,Packt,Adobe出版社,FT新闻,新闻,Manning,新的车手,麦格劳山、琼斯& Bartlett,课程技术,以及更多。欲了解更多有关Safari图书在线的信息,请访问我们的网站。

如何联系我们

请向出版商发表有关这本书的评论和问题:
O’Reilly Media, Inc.
1005 Gravenstein Highway North
Sebastopol, CA 95472
800-998-9938 (in the United States or Canada)
707-829-0515 (international or local)
707-829-0104 (fax)
我们有这本书的一个网页,在那里我们列出勘误表,实例,和任何附加的
信息。你可以在HTTP访问这个页面:/ / www.oreilly.com/catalog/<catalog page>。
评论或询问关于这本书的技术问题,发邮件给bookquestions@oreilly.com
有关我们的书籍、课程、会议和新闻的更多信息,请参见我们的网站http://www.oreilly.com
在脸谱网找到我们:http://facebook.com/oreilly

已有(3)人评论

跳转到指定楼层
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条