奥巴马团队如何使用大数据

2012年,奥巴马竞选使用的数据分析和实验的方法,组建一个胜利的竞选团队。这件事情的意义不仅仅在于此,它也推翻了电视广告在美国政治中长期的主导地位,并创造了新型有效的竞选模式,能够把握大多数选民的兴趣和动向。

在奥巴马第一次总统任期的第三年,他所在的民主党却遭遇数十年来最惨痛的失败。虽然在此之前,奥巴马利用国会多数议席的优势,成功地改革医疗保险制度和金融市场。但是在中期选举中这种优势被一扫而空,在众议院和参议院议席数上,民主党的优势变得微乎其微。这一系列的变化让众多专家们难以解释。选民对奥巴马计划的失望是显而易见的。2010年,民主党尝到奥巴马执政期间第一次民调失败的痛苦:意味着奥巴马在接下来的任期内政策的推广将举步维艰。
但对民主党人来说,唯一黯淡的安慰是丹·瓦格纳早早地预测到了这种局面的到来。从2009年1月瓦格纳被聘为DNC的战略董事以来,他主要负责收集选民资料并进行分析,从而帮助该委员会通过直接邮寄和电话与个人选民进行接触。他解释说,他将一系列调查的结果,包括民众的态度和倾向送入他的统计模型,并让DNC技术部门开发相应的软件,可以把这些信息纳入表格,便于后续有针对性行动的展开。他称这款软件为Survey Manager。
那年秋天,在填补纽约州北部的一个国会席位选举中,瓦格纳在选举日之前成功地预测了最后150票赞成的结果。数月后,又成功预测了玛莎科克利一定再赢特别选举,填补了马萨诸塞州参议员席位。
同样他借助他的模型又成功预测了民主党中期选举的结果,结果他的预测与平均只有2.5%的差距。米奇·斯图尔特说:“虽然大多数不了解这其中的数学原理,但是大家都越来越相信这个模型得出结果的准确性,以致于每次特别选举举行,瓦格纳的话是在DNC成了黄金标准。”
瓦格纳所取得的成就的意义不仅仅在于他能在数月之前就预测到最终选举的结果。他的方法为跟踪社会舆论提供了极其方便的工具,同时围绕隔离的小样本寻找整体的趋势,也被视为决定性的突破他的技术,标志着一个新的思维方式,打破了传统竞选活动中制定了将选民按照旧的政治地域或传统的人口统计,如年龄,性别等进行分类。相反,选民可以被看作是公民个人,每个人都可以根据自己的实际行为特征进行测量和评估。


丹·瓦格纳,2012年为奥巴马的首席分析官,数据科学家。

在奥巴马的2012年的选举胜利, 要归功于他的那只强大的技术团队。这个团队, 使得奥巴马的支持选民可以轻松地通过网站, 社会化媒体, 以及移动设备来参加到奥巴马的竞选过程中。 他们设计的移动APP,可以使奥巴马的助选人员直接打印宣传材料, 而亲自不必跑到每个竞选办公室去; 他们设计了一个网站, 采用游戏积分墙形式的Dashboard,显示在筹款活动中捐款者的排名; 他们还设计了一款叫做“target sharing”的挖掘工具, 帮助每一个奥巴马支持者从自己的Facebook好友中, 找出那些合适的宣传对象。

在这一切的背后, 是一套对选民的评分系统。 这套评分体系可以针对每个选民进行预测。 使得每次竞选时,不但可以知道某个用户是谁, 还可以知道如何才能去影响用户。
选民的评分系统
4年前, 24岁的Dan Wagner在芝加哥的一个咨询公司里做分析师,他采用芝加哥大学研究的软件进行计量经济学方面的分析。 当他知道伊利诺伊州参议员奥巴马决定竞选美国总统时, 他决定应该为他的老乡做些支持。 于是, 他加入了奥巴马的竞选团队。他的工作从选民数据输入开始, 随着奥巴马竞选的展开, 他对选民数据采集以及利用统计模型分析选民数据越来越熟悉。 很快, 他被任命为大湖/俄亥俄河谷地区的首席用户分析。 这一地区一直是美国总统选举争夺最激烈的地区。

随着奥巴马2008年的胜利, 他的高级幕僚们大多数都去了华盛顿去准备政府工作。而Dan Wagner则留在竟选总结小组, 对竞选中的技术环节进行总结, 找出不足。

在2008年的竞选中, 奥巴马的团队的分析师们创造出了一套评分体系。它给每一个选民进行两类评分, 一个用来评估用户参与投票的可能性, 一个用来评估用户支持奥巴马的可能性。 这些评分的基础来自于大量的调查。 在每一个争夺激烈的州,奥巴马的呼叫中心每周会进行5000到10000个短调查用来衡量用户的支持偏好,还会向传统社会调查那样进行1000个左右的更深入的调查。 根据选民登记信息, 消费者数据库, 选民过去投票情况,再结合这些数据, 分析师们建立了一个预测每个个体选民的支持偏好的算法。

clip_image002

这套系统的价值非同小可。 它可以形成一个针对性宣传的闭环。 它可以指导志愿者去敲哪些选民的门或者打哪些选民的电话,而通过志愿者与这些选民的交谈记录的反馈回服务器, 算法模型可以指导志愿者是否应该去敲下一家的门。 这种模型的效率和规模性使得民主党在对选民分析中占得先机。 当时共和党候选人麦凯恩的分析团队,只能根据选民的数据进行根据统计模型一次性静态的分析, 无法在选举过程中根据不是事件作动态的分析。 而奥巴马的团队, 则可以根据实时的反馈数据, 每周做出动态分析。比如麦凯恩指定阿拉斯加州的女州长佩林做副总统竞选人, 或者雷曼兄弟倒闭 这样的事件, 对选民支持率的影响等等。

不过, 奥巴马的团队的数据架构也是有缺陷的。 那就是是选民的信息数据与竞选过程中与选民互动的数据是相互孤立的。主要的原因由于这些系统是由不同的公司开发的。 而他们并没有必要把这些不同的系统统一起来。

竞选总结小组认为, 在下一次竞选的时候, 这样的情况需要得到改善。 它提出的报告, 建议民主党建立一套“选民关系管理系统”,可以使在整个竞选团队成员, 对目标人群不是简单的按照投票人, 志愿者, 捐款者或者网站用户来看, 而是把他们不同方面的信息整合起来, 做为一个“公民“来全面衡量。 “我们意识到我们的数据架构在不同竞选团队之间的数据共享和整合方面有问题。 我们应该整合数据, 提供选民的全面信息。” 总结小组的数据库应用开发工程师Chris Wegrzyn 这样说道。

Chris Wegrzyn是民主党全国委员会的首席分析程序员。他负责一系列系统和软件的采购, 这些采购的目的, 就是使竞选团队能够摆脱对单个供应商的依赖, 按照自己的需求搭建系统。 为此, 民主党安装了一套西门子的企业级电话呼叫系统,可以每天进行120万次电话外呼来进行选民调查。 此外, 他们还购买了价值28万美元的HP的Verica软件, 使得他们不但可以访问民主党自己的1亿8千万选民数据库, 还可以获得所有通过网络与奥巴马竞选团队有交流的选民,志愿者或者捐款者的信息。

2008年后去华盛顿的团队成员, 在2011年第二任竞选时大多数又回到了芝加哥继续工作。经历了2010年中期选举的惨败后, 他们对Dan Wagner的分析到原子级的模型倍加欣赏。作为第二任选举, 他们要做的事情很简单, 那就是, 让那些2008年投给奥巴马的选民继续投给奥巴马。 为此, 他们需要成功的动员选民投票,同时吸引新选民来弥补一些不投给奥巴马的老选民的空缺。

在2012年选举年开始的时候, 奥巴马团队已经拥有所有2008年投票给他的69,456,897名选民的姓名。 选民在投票时可以采用匿名投票, 不过, 奥巴马团队的分析师们可以通过在各选区的民主党的统计, 分析出那些投票给奥巴马的选民的姓名。 有分析人士在电视上只是抽象地说奥巴马的2012年选举是“重塑08年的支持者阵营”。 而在奥巴马竞选团队里, 他们真的是在一个选民接一个选民的“重塑”08年的支持者阵营。
实验
当Jim Messina被任命为奥巴马竞选团队的主管后, 他给下属定了这样一条规定“任何决定都必须以量化的数据为基础”。 不过, 这与2008年奥巴马第一次竞选时人们常常提到的“以数据为导向”的方式还是有所不同的。 当时奥巴马的竞选团队主管David Plouffe, 就致力于以“选举工程学”的方式, 挑战执政的共和党。 他热衷于各类指标, 表格以及报告。 Pouffe想要了解的问题包括”上周末某个地区竞选办公室的志愿者是如何安排的”以及“某次筹款活动具体筹到的款项是多少”这样的问题。

尽管2008年的竞选中对数据的依赖性很高, 08年的竞选并没有采用21世纪政治中最重要的创新方法。 1998年, 耶鲁大学的Don Green 和Alan Gerber进行了政治学上第一次的随机控制性实验。 他们通过对纽黑文选民随机地通过邮件, 电话或者拜访的形式进行投票动员。 然后统计何种方式能够达到最大的效果。 这掀起了一股实验性的热潮 Don Green, Alan Gerber及随后的其他研究者对于投票动员, 面谈以及不同竞选口号进行研究, 以确定不同方式的不同效果。

在2008年竞选中, 奥巴马团队采纳了这些研究中的一些研究成果来帮助修改宣传文案或者是谈话脚本,但是从方法论上采用这种实验式的方式。 从Dan Wagner开始, 民主党决定进行他们自己的实验。 Dan Wagner说:“我希望全国委员会成为民主党的研究的主要推动力量。”

为此, 他聘请了华盛顿的研究机构Analyst Institute 来协调各种不同的实验性研究。 其中很多的研究是关于选民注册这个方面的, 因为这个方面最容易进行量化衡量。其中一个研究发现,选民注册不需要仅仅是被动等待,也就是说, 竞选组织者不必只是坐等未注册选民上门, 领取注册表格, 然后等他们投票。 通过新技术, 可以分析所有适龄的居民, 比对选民注册数据, 找出未注册的选民。通过一些商业数据库, 可以得到选民的家庭地址。 而通过定向模型可以判断出该选民是民主党还是共和党支持者, 竞选团队可以据此给选民寄送选民注册资料。

民主党的竞选团队还包括了来自Analyst Institute的社会学家。 团队知道吸引更多的民主党支持者去投票是2012年选举成功的关键。不过竞选团队的计划, 可不是仅仅地让那些未注册的支持者去注册投票那么简单, 他们野心勃勃地想挑战现代政治里最困难的部分, 那就是, 改变人们的支持倾向。

随着数据能够详细到个人, 这样的改变倾向的实验变得可行了。 通常这类的实验可以计算出实验对于整个人群的态度改变的效果。而现在则可以衡量到每个个体选民被某次宣传所改变的程度。 从2006年开始, 已经有研究表明这样类似的可控性实验的可行性了。实验用直邮方式宣传某个民主党州长候选人, 发现这种方式对那些完全党派中立的选民的影响, 反而要远远小于那些轻微亲共和党的选民。

这个研究以及其他一系列后续研究, 揭示了传统的针对性宣传的局限性。 这些宣传基于一些人们长期以来认定的假设,例如 中间派的选民最容易被说服, 但是这些实验提出了另外一些不确定性因素。 那些50%可能性投票给民主党或者共和党的人,可能是因为两党都在争取而变得犹豫不决。 也可能仅仅是因为他的数据缺失而导致两党都没有关注他。 Chris Wyant在2008年是奥巴马竞选团队的地面组织者, 现在则是2012年团队在俄亥俄州竞选的总监, 他说:“其实我们对那些50%可能性投票的选民的了解最少, 我们对能够说服他们都没把握。”

clip_image003

发表评论

电子邮件地址不会被公开。 必填项已用*标注