Spark 高级分析:第七章第1节 MEDLINE引文索引：网络分析

问题导读

1.图论和网络科学是如何产生影响的？
2.GraphX是什么？
3.MEDLINE是什么，有什么用？

上一篇：Spark 高级分析:第六章第12,13节多词查询
http://www.aboutyun.com/forum.php?mod=viewthread&tid=24792

第七章使用GraphX分析共生网络

世界真小。它一直在重复着自己。 -大卫·米切尔

数据科学家形形色色，来自不同的学术背景。尽管许多人在计算机科学、数学和物理等学科有过一些培训，但也有其他的成功的数据科学家在研究神经科学、社会学和政治科学。虽然这些领域研究不同的东西（例如，大脑、人、政治机构），传统上不要求学生学习如何编程，但它们都有两个重要的特点，使它们成为数据科学家的肥沃训练基地。

首先，所有这些领域都在理解实体之间的关系感兴趣，无论是神经元之间，个人，或国家，以及这些关系是如何影响所观察到的行为的实体。其次，在过去的十年里，数字数据的爆炸给研究人员查阅大量关于这些关系的信息，并且要求他们开发新的技能以获得和管理这些数据集。

当这些研究者开始与计算机科学家相互协作时，他们也发现他们使用的分析关系的许多技术可以应用于跨领域的问题，并且网络科学的领域诞生了。网络科学应用图论中的工具，它是研究一组实体（称为顶点）之间的成对关系（称为边）的性质的数学学科。图论也被广泛应用于计算机科学，研究从数据结构到计算机体系结构到网络等网络的设计。

图论和网络科学在商业界也产生了重大影响。几乎每一个主要的互联网公司都能通过比任何竞争对手更好地建立和分析一个重要的关系网来获得价值的很大一部分：亚马逊和Netflix所使用的推荐算法依赖于消费者项目的网络。每个公司创建和控制的ASE（Amazon）和用户电影评级（Netflix）。脸谱网和LinkedIn构建了它们之间的关系图，以便组织内容提要、宣传广告和代理新的连接。也许最著名的是，谷歌使用了创始人开发的PageRank算法来创建一种根本上更好的搜索万维网的方法。

这些以网络为中心的公司的计算和分析需求有助于创建分布式处理框架，如MapReduce，以及雇佣能够使用这些新工具的数据科学家，以便从不断扩大的数据量中分析和创造价值。MapReduce的最早使用案例之一是创建一种可伸缩且可靠的方法来解决PageRank中心的方程。随着时间的推移，随着图表变得越来越大，数据科学家需要更快地分析它们，新的图形并行处理框架，比如谷歌的PrEGEL，雅虎的GRAPAPH！以及卡耐基梅隆的GraveLabor被开发出来。这些框架支持容错、内存、迭代和以图形为中心的处理，并且能够执行某些类型的图形计算数量级，而不是等效数据并行MapReduce作业。

在本章中，我们将介绍一个名为Graphx的Spark库，它扩展SCAP来支持PREGLAGE、GIRAPH和GROLAB支持的许多图形并行处理任务。尽管它不能像自定义图形框架那样快速地处理每一个图形计算，但它实际上是一个SCAP库，这意味着每当您想要分析以网络为中心的数据集时，将GraphX带入正常的数据分析工作流相对容易。使用它，你可以将图形并行编程与你熟悉的Spark抽象结合起来。

第1节 MEDLINE引文索引：网络分析

MEDLINE（医学文献分析和检索系统在线）是学术期刊的数据库，已经发表在涵盖生命科学和医学的期刊上。它是由美国国立卫生图书馆（NLM）管理的，并由美国国立卫生研究院（NIH）分部发布。它的引用指数跟踪了数千篇期刊上发表的文章，其历史可以追溯到1879，自1971以来，它已经在网上从医学院网上传到网上，从1996开始就通过万维网向公众开放。主要数据库包含超过2000万篇文章，可追溯到20世纪50年代初，每周更新五天。

由于引用的数量和更新的频率，研究社区开发了一套广泛的语义标签，称为Mesh（医学主题标题），应用于索引中的所有引用。这些标签提供了一个有意义的框架，可以用来探索文献之间的关系，以便促进文献评论，并且它们也被用作构建数据产品的基础：2001，PubGun展示了生物医学的第一个生产应用之一。通过搜索引擎启动文本挖掘，允许用户探索将相关文档连接在一起的网格词语图。

在本章中，我们将使用Scala、Scale和Graphx来获取、转换、然后分析最近出版的MEDLINE引文数据子集的网格词语网络。我们将要进行的网络分析灵感来自于论文“网络的大规模结构，共同出现的网状词语：宏观特性的统计分析”。（2014年），虽然我们将使用引文数据和替代R包和C++代码，用于通过该执行分析的一个不同的子集。

我们的目标是对引文图的形状和性质有所了解。我们将从几个不同的角度对此进行攻击，以获得数据集的完整视图。首先，我们将在主要话题和它们的共同出现时大吃一惊，一个更简单的分析不需要使用Graphx。然后，我们将寻找连接的组件-是否可以遵循从任何主题到任何其他主题的引文路径，或者数据实际上是一组单独的更小的图形？我们将继续研究图的度分布，它给出了主题的相关性如何变化的意义，并找到与大多数其他主题相关的主题。最后，我们将计算一些更先进的图统计：聚类系数和平均路径长度。在其他用途中，这些使我们能够理解引文图与其他通用现实世界图的相似之处，如万维网和脸谱网的社交网络。

图文精华

Spark 高级分析:第七章第1节 MEDLINE引文索引：网络分析

推荐 /2