分享

什么是数据可视化及微博数据的可视化分析


问题导读


1.微博为什么有可视化现实需要?
2.什么是数据可视化?







在滔滔数据可视化的时候,首先我们需要知道什么是数据可视化:
数据可视化( Data Visualization )起源于18世纪,William Playfair 在他出版的书籍《 The Commercial and Political Atlas 》中第一次使用了柱形图和折线图。当时是为了表示国家的进出口量,在今天依然这么使用。19世纪初,他出版了《 Statistical Breviary 》一书,里面第一次使用了饼状图。这三种都是至今最常用的最著名的可视化图形。19世纪中叶,数据可视化主要被用于军事用途,用来表示军队死亡原因、军队的分布图等。进入20世纪,数据可视化有了飞跃性的发展。1990年,在人机界面学会上,作为信息可视化原型的技术被发表。1995年,IEEE Information Visualization 正式创立,信息可视化作为独立的学科被正式确立[1]。随着2012年世界进入大数据时代,数据可视化作为大量数据的呈现方式,成为当前重要的课题。

数据可视化是什么   
The main goal of data visualization is its ability to visualize data, communicating information clearly and effectively.
    数据可视化的目的,是要对数据进行可视化处理,以使得能够明确地、有效地传递信息。

--- Vitaly Friedman










1113701334_14189526215441n.jpg
图一
1113701334_14189526218141n.jpg

图二
1113701334_14189526218571n.jpg

图三
1113701334_14189526218881n.jpg

图四



微博是基于用户关系的信息分享、传播、获取的平台,它内容简短,以不到140字公开的短消息,用户能够通过它交换一些小规模的信息,诸如短句、个人照片、视频链接等。它允许用户及时更新自己的个人信息并与他人交流,维护自己的人际圈。微博提供通过手机和电脑随时随地的发布途径,对社会的活动和个人的生活方式产生了重大的影响。从世界的各个角落发布的每一条微博,如同无数的社会化的传感器,记录着全球每时每刻发生的点点滴滴。微博使世界上的每一个人都成为信息源,并使之在全球传播,这使得微博所承载的信息量大大增加。从这聚集成的信息洪流中,提供了另一个隐约窥见世界全貌的途径。

微博可视化的现实需要

研究微博上的信息具有十分重要的意义。首先,微博集合了海量的新闻、事件和信息,并且每天都在更新,每天都在流传,并对现实的社会产生巨大的影响。尤其是在突发事件的信息传播上,微博更是超越了传统媒体,成为了信息快速传播的渠道。最早爆料出本·拉登死讯的并不是各大媒体,而是Twitter。

其次,微博上的信息不仅发布及时,而且也是现实社会生活的缩影。挖掘微博上的信息有利于分析现实世界的情况。东南路易斯安娜大学的助理教授Aron Culotta曾经通过追踪一些与流感有关的关键词,如“flu”“headache”等,进行流感爆发趋势的预测。他利用发布于2009年9月到2010年5月间的近5亿条信息建立起了一个预测模型。通过该模型的预测结果与美国疾病预防控制中心的统计数据惊人地相符。

虽然微博信息不一定精确,但它的时效性强,不需要花费大量的人力物力去收集信息,这大大方便研究人员进行快速分析。当然,通过微博搜集到的海量数据也是传统数据收集方法所不可比拟的。

另外,每个用户在微博上还维护这一个人际交往圈,现实生活中的好友、网络好友、新朋友、朋友的朋友……这形成了一个错综复杂的人际网络,并逐渐对其自身造成潜移默化的影响。因此,微博上的人际关系也是一个十分有趣的分析内容。

微博上的信息海量、复杂且多样,传统的数据分析方法已经很难适应这一特点。而利用可视化的工具,对微博数据进行可视化、可视分析并加以人机交互,是一个十分有力且具有广大前景的研究方向。

标签云与Wordle

标签云是一种使用广泛的可视化方法,它根据标签的热门程度来确定其字体大小,在许多网站、博客上都能见到它的身影。Wordle是一种比较流行的、将文本中关键词可视化的方法。它极具视觉美感,可以在短时间内在感官上给人冲击,吸引读者,并能让使用者轻易地抓住文本中最主要的关键词。Wordle同样是使用字体大小来表示词语的权重,通过把关键词按照一定外轮廓紧密地排列达到美观的效果。

微博转发

微博的一个重要传播特性是用户可以转发感兴趣的微博,从而形成链式的传播。一条微博可以在短时间内被成千上万的用户转发。北京大学可视化与可视分析实验室开发的WeiboEvent工具 (http://vis.pku.edu.cn/weibova/weiboevents)(图一)就是可以便捷地可视化一条微博如何被其他人转发传播。通过几种不同的可视化方法,可以分析挖掘转发随着时间变化的状况以及参与转发的重要用户。

网络和地图

网络是社交网络可视化中经常使用的一种表现形式。通常情况下,它用“点”表示人,用“线”表示人与人之间的关系。将一个复杂的社交网络用可视化的形式表现出来,可以比较直观地展示网络中的人际关系情况。再加以人机交互的手段,可以挖掘出一些深藏在数据背后的信息。

TweetWheel是Twitter上另外一个的好友关系可视化应用。它将好友排列在圆周上,互相认识的好友间都连一条曲线,便形成了这样一个美妙的圆盘,方便用户对好友间关系进行探究。如图一的好友关系好像“一盘意大利面条”,把“面条”从“盘子”里提溜出来,就是一组好友关系。

地图是一种简便、直观,也是目前非常流行的展现地理信息的可视化方式。它主要根据地理位置的不同,将不同地区的数据展示在地图上。随着移动互联网的爆炸性发展,我们可以越来越方便地获取到更加精确的地理位置信息。在这大量地理数据的背后,还有很多有意思的东西正等待着人们去挖掘发现。其中,微博上基于地理信息的可视化就有很广阔的前景。

图二所示是在大约两周时间里,中国部分地区发布带有地理标记的微博的密度图。这幅微博人口活跃度“地图”和实际的城市发布大致吻合,我们可以清楚看到城市的发布,特别是沿着一些铁路大动脉的热点。

Bits Pics是一个十分有趣的应用。作者Eric Fischer用它展示了用Twitter发消息和用Flickr发照片的用户的地理分布。地图上橙色的点表示使用Flickr发照片的用户,蓝色的点代表使用Twitter发消息的用户,而白点则表示两者均使用。

首先来看看全球的用户分布情况。我们可以看到,使用这两者的人多分布在美国和西欧地区,日本地区也有很多人在使用。我们可以很轻易地发现美国西部的人更偏爱发照片,而东部的人偏爱发微博消息,而那些比较明显的白色点大部分都是美国人口密集的大城市。在图上还隐约能看到几条横贯东西的白线,那些正是美国的高速公路。

从海量的微博数据中,提取与事件相关的地理空间信息,对社会和人们的日常生活都有着重要的意义。自然灾害、突发事件等事件的感知和应对,需要比专业测量更快速、更及时更新地地理空间数据;对日常生活中的话题、事件的地理分布的获取,又需要比专业测量更方便、低成本的方式。微博中的公众用户,就如同大量的社会化传感器,时刻发布着可能包含地理位置的各种事件的目击、描述和评论。通过提取微博中的地理空间信息,能够在一定程度上满足大众对各类事件了解的需求。北京大学发展的ThemeMap可视分析平台根据微博上大家对特定主题讨论的位置产生相应的主题地图,它结合了微博地理位置提取的自动化算法,和志愿地理信息系统的公众参与的思路,提供了对主题、事件的更好的地理位置提取和可视分析。它利用公众参与,能够更充分、准确地提取微博的地理位置,从而达到更好的可视分析效果;通过利用已有的微博数据和自动化算法,极大地降低了志愿者的参与难度和时间成本。

在2012年7月21日,北京经历了61年来最大的一场暴雨,超过200万人的生活受到了影响。在这场暴雨中,北京城中城郊的许多地点、道路产生了严重的积水,最深的淹水处有5米之深。暴雨发生之时、之后,新浪微博上爆发了许多谈论暴雨和积水的微博,其中许多谈论了积水发生的地点。图三是根据“北京&暴雨”为关键词,在暴雨发生阶段的微博产生的地图,基本反映了暴雨事件中主要严重积水地点。

图四所示的为厦门堵车地图,是作者在微博上一名厦门交警的建议下以“厦门&堵车”为关键词创建的ThemeMap主题地图。





已有(7)人评论

跳转到指定楼层
zhujun182104906 发表于 2015-1-12 10:24:31
数据可视化越来越重要
回复

使用道具 举报

stark_summer 发表于 2015-1-12 18:53:57
回复

使用道具 举报

hb1984 发表于 2015-1-12 20:14:58
谢谢楼主分享。           
回复

使用道具 举报

wing2464 发表于 2015-4-24 10:53:56
有没有推荐的可视化分析工具呢?
回复

使用道具 举报

晃晃悠悠 发表于 2017-4-26 10:24:14
可视化能够更直观的理解数据
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条