Tag Archives: Big Data

警惕大数据中的“陷阱”

本期【大数据与社会】将梳理总结关于大数据研究“陷阱”的文章,介绍大数据研究实践中所勘测到的“雷区”。

关于转载授权

大数据文摘作品,欢迎个人转发朋友圈,自媒体、媒体、机构转载务必申请授权,后台留言“机构名称+文章标题+转载”,申请过授权的不必再次申请,只要按约定转载即可,但文末需放置大数据文摘二维码。

编辑、翻译:闫蒲、Xenia、周希雯、张钰、王昱森、陈姸君

导语:关于社会大数据的研究近年来不断扩大、繁荣,发展为集社会学、计算机学、物理学、心理学等多个学科于一身的交叉学科。与此同时,新的数据获得渠道、数据处理方法和工具也不断被研究者们引入社会研究领域。然而,正是因为该领域的快速兴起,社会大数据的研究方法往往未能得到足够的重视和讨论。未成形的方法规范、模糊的样本收集范围及边界等诸多问题导致类似研究难以复制,更难以像传统社会学研究方法一样可以通过实证研究结果的梳理总结得出系统的理论。本期【大数据与社会】将梳理总结关于大数据研究“陷阱”的文章,介绍大数据研究实践中所勘测到的“雷区”。

1948年11 月3 日,哈里⋅ 杜鲁门赢得美国总统选举的第二天, 芝加哥论坛报发表了新闻史上错得最荒谬的头条之一:“杜威击败杜鲁门”。这个头条来源于电话样本调查,但是却在抽样过程中由于对杜鲁门支持者采样过少而导致了错误的估计。此次事件并没有全盘否定民意调查方法本身,但是却启发调查者使用更成熟的技术、制定更严格的标准,从而使得今天的民意调查更加准确、在统计意义上更加严谨。

现在,我们停滞在一个相似的技术转折点,人类行为研究所使用的私人和社会网络数据不断。强大的计算机资源和可使用的大型社交媒体数据集结合,涌现出一个研究群体:他们使用机器学习,自然语言处理,网络分析和统计学对人口组成与人类行为进行前所未有的大规模测量。然而,越来越多的证据表明,基于大数据的预测和分析却曲解了现实社会现象。在社会大数据的研究逐渐成为“显学”的同时,社会学家需要与不同领域的学者增强方法领域的合作,从简单地使用大数据研究社会问题,过渡到优化大数据社会研究的操作、共同探讨符合学术标准并且行之有效的研究规范。

Derek Ruths 和 Jurgen Pfeffer 均来自于计算机研究领域,他们发表在《科学》(Science)杂志上的一篇《基于社交网站的大规模行为研究》(Social media for large studies of behavior)[1] 却深入探讨了社交媒体的研究通常出现的问题,并讨论了如何为大数据研究方法制定更高的标准规范

样本代表性:大数据≠全部

许多以大型社交媒体数据为基础的人类行为研究都潜藏着一个假设:足够大的数据样本量能排除由平台本身带来的“噪音”。然而,不同的社交媒体平台各自有大量不同的总体统计偏差。例如Instagram(译者注:大型图片分享及社交网站)对18到29岁的成年人,美国非裔,拉美裔,城市居民,特别有吸引力,而Pinterest(译者注:同样是图片分享网站)主要用户是女性,25到34岁,平均年收入10美元。两个平台用户具有不同的特征,然而,这样的样本代表性差异却从未被研究者严肃地纠正亦或是承认。此外,很多基于社交媒体的研究倾向于用社交网站的社会网络特征归纳总结人类行为。然而,发展中国家互联网使用率甚至还不足50%。用户主要以发达国家为主的社交媒体显然无法代表全世界更大范围的人类群体。根据社交网站所得出的“大数据”,其边界也需要更加审慎地界定。

图 SEQ 图 \* ARABIC 1 世界互联网使用率 (数据来源:ITU国际电信联盟是; 制图:闫蒲,Ralph Schroeder 牛津互联网研究所)蓝线代表发达国家互联网使用率,红线代表发展中国家互联网使用率。

数据“黑匣子”:被操控的数据

在《黑匣子: 操纵金钱与信息的秘密算法》(译者注:原著名为The Black Box Society: The Secret Algorithms That Control Money and Information,由哈佛大学出版社出版)一书中,作者Frank Pasquale警告公众:“(网站)可以包容、排斥、排名的权力决定了何种公众言论可以长期存在,何种会日渐式微。”

在大数据领域,网络平台同样具有操纵研究的能力和渠道。近年来,基于社交媒体数据的研究层出不穷,不少研究者都使用了网站所提供的应用数据接口(即API,Application Programming Interface)获得数据。

通过API获得社交媒体数据主要有两种渠道:搜索接口(Search API),即通过搜索一周内所发布的相关信息;另一种为即时接口(Streaming API),即通过保证接口开放接受即时信息,对于非商业伙伴的研究人员而言,网站返回的即时接口数据仅为全部数据量的1%。当研究人员日益依赖于两种API获得研究数据,并通过此类数据获得对人类网络活动、情感、组织方式认识的同时,该类数据是否具有可靠性、代表性也成为开始大量使用社交媒体数据前必须回答的问题。

González-Bailón等人在《大型社交网络抽样调查偏差评估》(Assessing the bias in samples of large online networks)这篇文章中对比了来自搜索接口和即时接口获得的不同样本,并对比不同数量的标签(hashtag,推特等社交网络媒介中出现在#符号后用来标注主题的词语)对研究结果的影响。他们抽取了两个相关信息的独立样本,样本A在英国采集,使用了搜索应用程序接口(Search API)和六个#话题标签,其中五个来自2011年的样本,一个是2012年新建的“动员”话题标签(#12M15M)。样本B1在西班牙采集,使用了即时接口(streaming API)和更广泛的70个#话题话题标签。为了更直接的对比A、B两样本,团队还从样本B中提取了一个只使用六个#话题标签的缩略版样本B2。

该研究发现通过推特应用数据接口所获得的用户社会网络结构特征很大程度上受不同接口类型以及获得样本过程中使用的标签数量影响。该研究对于使用社交媒体进行社会研究的学者有很大的启发意义:当研究者越来越依仗社交媒体平台获得研究数据时,当下流行的社会大数据取样方式很有可能导致研究结果与实际社会结构、用户行为有偏差。

Derek Ruths 和 Jurgen Pfeffer也同样提出,被全世界范围研究人员广泛只用的Twitter用户数据,并不能准确表现其用户的数据。更恶劣的情况是:社交平台管理者会通过不公开的算法操纵数据的抽样和过滤方式使得研究者无所适从。

一部分研究者因为其“嵌入式”的研究身份,建立了与社交网站平台密切的合作关系,从而获得了一般研究者无从获得的数据、算法、资源。类似的研究往往能够得出关于大规模人类行为的结论,获得一定程度的学术影响(编者注:参考上一期大数据与社会Facebook关于情绪感染的研究,http://bigdatadigest.baijia.baidu.com/article/265887 )。 然而,类似的研究往往无法复制,其研究人员对于数据来源、算法细节也往往讳莫如深。

人类行为?机器行为

很多研究者都会基于社交网站的大数据得出对人类行为和网络结构的结论,然而,类似的现象的出现很可能只是对平台设计者意图的再现,而非对人类行为的科学观测。Derek Ruths 和 Jurgen Pfeffer 认为,社交网站的设计者其实对人类行为的部分规律了然于心。譬如社交活动的同质性(“物以类聚,人以群分”),传递性(“我朋友的朋友就是我的朋友”)和邻近性(“邻近者形成一条纽带”)都被社交媒体平台的设计者们所熟知并加以运用(译者注:如Linkedin,求职类社交应用频繁地好友推荐使得用户的好友来源很大程度上来自平台的推荐而非自发的寻找)。因此,社会心理学的研究应该从平台的驱动作用剥离开来、区别对待。然而很不幸,现有的研究者并没有类似的尝试。

线上社交平台的开发者正在构建工具去服务一个特定的、实际的目的,这些尝试往往不能够代表线下的公众行为,更不能为研究者提供质量上乘的研究数据。比如,谷歌等搜索引擎会根据智能联想推测用户搜索词相关的关键词,并引导用户搜索推荐的组合(编者注:研究者会基于网站搜索数据得出对用户搜索行为的研究,及log analysis),然而基于此类数据的研究可能与用户真实的搜索意图恰好相反。这些设计往往有其合理的应用价值,但是作为研究数据,类似的设计却掩盖了人类行为的其他方面,基于此类平台的量化研究也很有可能错失对人类行为的全面体现。

此外,尽管平台设计者们致力于监管用户的规范使用,但是在所有的线上社交平台都存在大量的“僵尸号”,即大规模人为甚至机器操纵的用户账号,服务于商业与广告营销等目的。在分析社交网站大数据时,排除或纠正类似的“杂音”是极其困难的。

研究方法的桎梏

在社交大数据必须经由平台提供的现状下,研究者无法排除抽样不具代表性、噪音干扰等诸多问题。因此,在汇报关于大数据的社会行为研究结果过程中,研究者需要着重强调研究中潜在的偏差(biases)。然而,即便研究者意识到利用社交网站数据存在的偏差,相关领域的研究也往往由于研究方法本身不够严谨而存在质量问题。

代表人群(proxy population)错配:每一个社交媒体研究的问题都定义了一个兴趣人群,例如,通过社交网站研究加州地区(UC schools)大学生的投票偏好。研究者往往通过 facebook用户的个人资料设置来确定研究群体(编者注:用户可以在资料中标注自己在加州就学)。然而从真实的研究群体到社交媒体所选择的表征群体,却往往存在严重的误差。最近的一项研究表明,这种代理效应在推特的政治倾向研究中已导致错误的估计[3]。

方法和数据不具可比性:绝大多数社交媒体平台禁止研究者保存或分享他们所获取的研究数据。 因此,在传统研究领域中可以实施的数据比较在大数据研究中十分鲜见。此外,研究者也很少公开其研究方法中所使用的代码。这些都导致新方法在未经对比检验的情况下就得以发表(甚至声称比其他方法“更好”)。介于现有社交网站平台关于用户隐私可以理解的保护手段,研究人员最有可能的解决办法是尽可能增加方法和结果的比较。

多重假设检验:现有的学术氛围通常只会欢迎积极发现(positive findings) ,当多组研究都成功就某一个社会问题建模或预测时,由于无法看到负面结果,我们也无从评价哪一些积极发现是由于随机性的巧合产生,哪一些是真正具有意义的积极发现。该问题不仅仅出现大数据研究领域,解决这一问题需要研究者不仅仅报告积极结论,同时也回报负面结果,并在同一个研究中使用多个数据来源,从而得以在该研究内部计算显著性得分。

总而言之,现有的大数据研究领域在代表性、抽样方法及研究方法等多个方面都仍然具有很多问题。基于此,对大多数研究者而言,我们需要具有的是对于数据质量及偏差更细致的考察,确立更加规范的标准。因而,更准确及有效的分析将很大程度上依赖于我们对待海量数据的审慎态度。

如何减少大数据社会研究中出现的偏差

参考文献:

[1] Ruths, Derek, and Jürgen Pfeffer. “Social media for large studies of behavior.” Science 346 (6213) (2014): 1063-1064.

[2] González-Bailón, Sandra, Ning Wang, Alejandro Rivero, Javier Borge-Holthoefer, and Yamir Moreno. “Assessing the bias in samples of large online networks.” Social Networks 38 (2014): 16-27.

[3] R. Cohen, D. Ruths, ICWSM ’13: Proceedings of the Seventh International AAAI Conference on Weblogs and Social Media (AAAI, Palo Alto, CA, 2013), pp. 91–99.

【延伸阅读】

【栏目介绍】

大数据与社会是大数据文摘新成立的专题栏目,致力于翻译、梳理、总结大数据应用于社会科学的最新研究,展示大数据为社会研究提供的新视角,发现大数据社科研究的有趣课题。作为新成立的子栏目,我们期待更多有兴趣、有经验的志愿者加入!

【栏目主编】

【编辑/志愿者】

Continue reading

打开大数据研究的潘多拉魔盒

导语

近年来,大数据研究方法逐渐应用于社会学科领域,运用大规模用户数据,社科领域研究者得以从新的视角理解用户媒介使用习惯、语言、与情感。然而,在大数据研究不断普及的背景下,如何规范大数据研究的伦理准则,如何保证研究对象的隐私权,以及如何研究现有互联网公司的伦理问题,这些问题看似遥远,但是却直接影响大数据研究者的行为准则。此外,回答与大数据研究、实践相关的伦理问题,将有助于增加普通公众对大数据的了解。本期【大数据与社会】栏目将以案例讨论的形式梳理在大数据研究和实践中所涌现出的若干问题,解释大数据研究的潘多拉魔盒是如何被打开的,而它又将如何改变我们的生活。

作为大数据资源的管理者,社交网站拥有丰富的用户数据资源。传统意义上,网站运营者的主要角色在于提供社交平台、优化服务与产品、吸引更多用户加入。然而,在近年来出现的部分用户行为研究中,社交网站的研究人员通过大规模用户实验研究用户行为习惯超越了其传统单纯的网络运行者角色。一方面,该类研究为社会学科补充了大规模实验的实证结果;然而另一方面,用户行为实验,尤其是涉及操控用户社交媒体内容的实验,也触碰到了社交网络使用者的权利。其中,Facebook的一项关于情绪感染(emotional contagion)的实验更是引发了社会科学内部对于大数据研究伦理的广泛讨论。

Facebook情绪感染实验:关于研究伦理的争议

在《美国国家科学院》2014年6月17日院刊中,Facebook首席数据科学家亚当·卡拉默(Adam Kramer),康奈尔大学交流与信息科学学院教授贾米·古伊洛瑞(Jamie Guillory)和杰弗瑞·汉考克(Jeffrey Hancock)通过修改689,003名Facebook用户可以接触到的好友新鲜事的情绪帖研究情绪在社交媒体上的传播与扩散方式。

在为期一周的实验中(2012年1月11日-2012年1月18日),研究人员通过用户ID随机选取689,003名Facebook英语版用户,并将其分为两组。一组减少刷新好友新鲜事时显示的正面情绪帖占比,另一组则减少刷新时显示的负面情绪贴占比。

研究人员发现当好友正能量新鲜事被有意减少后,用户在发帖时会使用更多比例负面词汇和更少比例正面词汇。当减少负能量新鲜事时,则出现相反的表达方式。与此同时,研究者还发现一种退出效果(withdrawal effect):越少接触情绪性状态的人,在接下来的日子里也会减少感情流露。这项发现与此前认为“阅读朋友Facebook上正面情绪状态会带来负面影响”的观点相左,基于此发现,研究人员认为负面影响的产生原因是接触正面情绪不足所导致的。

该研究证实:情绪可以通过情绪传染(emotional contagion)的形式传递给他人,使他人在无意识中感受到同样的情绪。此外,大规模社交网络的情绪传染还证实面对面的交流和非言语上的暗示并非情绪传染的必要条件,即情绪传染可以通过社交媒体,如Facebook,经由线上社会网络进行。

然而,由于该实验过程涉及操纵用户的好友消息推送(译者注:通过推送包含积极或消极情绪的好友消息,Facebook用户被动接受了研究者处理过的信息),Facebook的实验也引发了学术界和社会对其法律和道德层面的激烈探讨。最为广泛的批评在于:被动接受负面信息的用户很有可能收到了负面情绪的不良影响,在其不知情的情况下体会到了情绪感染导致的焦虑(anxiety)。

鉴于论文发表后强大舆论批判, Facebook的数据实验团队强调,所有的数据分析全部基于计算机算法,他们没有阅读或篡改用户发布的内容,只是调整了新鲜事的排列顺序。好友的其他新鲜事和状态,在进入其个人主页后仍能看到。实验的目的旨为提升用户体验,以使用户在facebook上看到的内容更具相关性。

然而,该研究的争议性依然持续发酵,该研究的第一作者亚当·卡拉默(Adam Kramer)最终不得不在其博客中公开向Facebook用户道歉,并保证今后将不会在用户不知情的情况下进行类似实验。

对Facebook实验伦理的讨论不仅限于该个案本身,牛津大学互联网研究所教授拉尔夫·施罗德(Ralph Schroeder)撰文质疑Facebook实验背后更广泛的大数据研究伦理问题,并延伸讨论了我们应当如何应对大数据研究对公众的影响。

施罗德教授援引赫胥黎在《美丽新世界》一书中展现的在信息繁盛的文明中日渐被动、麻木的社会。借此警示:社会研究所使用的大数据,因其对数据学习前所未有的深度和广度,对我们的生活越来越有影响力。这一特质很容易会被掌握了大数据影响力的企业或机构利用,借此操纵人的好恶。

施耐德教授认为,当下热议的大数据道德问题的关键在于数据多大程度上属于用户私人数据(an essential infrastructure for citizens),假如实验者所操纵的是用户的私人数据而非公共数据,那么类似研究将不可避免地侵犯用户利益。

关于大数据研究,施耐德教授还提出了两种不同导向:第一种研究为学术导向(Academic Research),另一种则是应用导向(AppliedResearch)。两种研究都利用大数据增加对人类社会的理解,区别却在于前者意图创造可推广的知识(generalizableknowledge);后者则致力于向特定受众(particular audience)提供可应用的知识(implementing knowledge),从而影响用户决策行为。两种不同导向虽然有重合之处,但是对于我们理解研究伦理却又不同的指导意义。

按照施耐德教授的定义,Facebook研究可以归类于致力于提供可推广知识的学术导向研究,尽管涉及研究伦理及侵犯用户隐私等问题,该研究为行为科学研究提供了一定实证支持。然而,对于大数据的使用和操控的另一种导向:应用导向通常更加隐蔽,但同样威胁用户权利,甚至可能操控用户商业、政治等决策行为。

Google搜索与印度大选:搜索引擎可能操控我们的决策

罗伯特·爱泼斯坦(Robert Epstein)是美国行为研究和技术研究所(AmericanInstitute for Behavioral Research and Technology)高级心理学研究员及科学美国人心灵杂志(Scientific American Mind)的特约编辑。他也是马萨诸塞州的剑桥行为学研究中心的创始人和名誉主任。他的团队抽取了2014年印度人民议会选举最后投票前4556位中间选民,样本来自美国和印度具有有效投票资格的印度选民。

该实验使用了模拟搜索引擎,随机将被试分为不同组,每一组所接受的搜索引擎结果经过研究者设计为偏向于某个特定竞选人。在实验前后,研究被试均被问及其投票偏好(voting preferences)。通过该实验,研究人员希望发现:有倾向的搜索结果是否可以改变选民意见和偏好?如果有,将在多大程度上改变中间选民的偏好?

研究发现:1)有偏倚的搜索排名可以改变20%或更多的中间选民的投票取向;2)这种转变在某些特定人口群体中比例更高达60%;3)搜索排名的偏好可以很隐蔽,以至于人们无法意识到自己被操纵。

爱泼斯坦团队将这种现象归因于搜索引擎的操纵效应(SEME,译者注:Search Engine Manipulation Effect)。在现实选举中,很多选举都由于竞选团队实力不相上下,最终多数党以小幅优势取胜,因此,该研究的意义在于证实了:单凭对搜索结果排名的操控,一家搜索引擎公司便有实力影响选民决策、操纵竞选结果。

虽然该研究使用的是模拟搜索引擎,但是研究者希望借由该模拟结果引起公众对索索引擎操纵效应的警惕:由于当下对搜索引擎公司监管并不完善,研究者认为这些公司有可能影响,甚至已经开始影响政治选举的结果。借由操纵搜索排名偏好该公司所青睐的候选人,从而操纵犹豫不决的选民是一个极其微妙但是却行之有效的政治操纵方式。更为令人警惕的是该种操纵对于民主制度将有可能造成威胁。

有趣的是,在爱泼斯坦团队研究的过程中,谷歌并非不知情,甚至有可能派出员工参与该研究的实验中。据爱泼斯坦在接受媒体采访时介绍,当研究团队在第二个实验中从互联网招募志愿者时,两个IP地址都来自谷歌的总部。

学术界对于搜索引擎可能的操纵行为早有预警,作为互联网信息的接口,学术界对于搜索引擎未来是否会沦为政治派系斗争的工具有着诸多顾虑。

Introna和Nissenbaum撰文指出互联网具有科技和政治的二重性。一方面,互联网是科技发展的产物;另一方面,互联网作为新兴媒体,同传统媒体一样可能会遭受政治派系的影响和操控。

在搜索引擎的案例中,政治偏见的产生可能体现于搜索引擎和被搜索信息的关系里:即网页是否能够收录于搜索引擎结果中,又能够被给予怎样的排名。这两个过程中算法的不公开性都会为政治偏见的产生提供温床。从微观层面讲,大多数搜索者并不了解搜索引擎的收录和排名机制。信息的不对称使得搜索者无法做出理性的决策,他(她)们只会根据偏好或者随机进行选择。

Introna和Nissenbaum强调,搜索引擎的算法不公开和商业导向会导致其违背互联网成立之初所确立的基本原则和最初理想。网页搜索算法的重要地位使得它不应该单由市场所控制。搜索引擎是市场的市场,当人们在搜索一个特定市场时,实际上是处于信息市场当中。而搜索引擎会在信息市场中倾向于选择突出更受欢迎和金钱能力更强的网站。如果单单由市场所控制,随着互联网变得更普遍,这种偏见问题就会更尖锐。因此,两位研究者提倡在搜索引擎的市场机制以外引入其他制约机制,规范搜索引擎的运行。

结语

在学术研究领域,大数据所带来的勇敢新世界不断扩展着社会研究的边界,为研究者提供全新的视角,更大规模的样本,增加我们对人类社会结构与人类情感行为的理解。于此同时在实践与应用领域,大数据也对商业公司提供了更多的机遇,尤其是大规模的用户数据资料为企业提供了细分用户市场、剖析用户行为偏好的资源。然而,正如传统社会研究与社会应用,大数据研究与实践同样应当受伦理与法律的双重制约。当大数据的弄潮儿打开大数据的潘多拉魔盒,看到一个“勇敢新世界”(brave newworld)的同时,更应该意识到与之并存的危机。大数据不仅仅是生硬死板的数字,其背后是用户的日常生活,社会交往,甚至是情感表达。定义哪些数据是用户的私人数据,界定商业公司实践操作的边界和尺度。这些必须,也必将会成为大数据研究的重点课题之一。

【栏目介绍】

大数据与社会是大数据文摘新成立的专题栏目,致力于翻译、梳理、总结大数据应用于社会科学的最新研究,展示大数据为社会研究提供的新视角,发现大数据社科研究的有趣课题。作为新成立的子栏目,我们期待更多有兴趣、有经验的志愿者加入!

【栏目责编】

【本期编辑】

【志愿者招募】

大数据文摘愿意为读者搭建高质量分享、交流平台,目前所有运营人员均为志愿者。我们是一群有能力愿分享的人,也欢迎同样的你加入。在文摘后台回复“志愿者”可了解更多,如果你具备如下能力,欢迎加入大数据与社会专栏

①社会科学研究相关经历

②熟悉英文学术文章

③对大数据在社科领域的应用感兴趣