大数据是近年来特别火热的词,不管是不是互联网企业,都随时往大数据身上靠,仿佛一下子能提高自己逼格一样。在这种火热的气氛中,很多人往往对于大数据能做什么,做的好事多还是坏事多,不去反思和检讨,也很少有人愿意去听别人的反思。
音乐平台总监们的失算
记得《中国新说唱》六进四淘汰赛的时候,请来了QQ音乐、酷狗音乐等四大音乐平台的(副)总监作为评审。四个评审每个人都说,自己代表了背后数千万的用户和大数据来进行评审云云。
当时我听了就觉得好笑,原因有二:
其一,既然本人来了,那么你做的每个决定并不代表任何人,只代表你自己的感受和音乐审美,每个人做的都是主观评论。
其二,大数据并不能告诉你未来。平台上的流行趋势,最多只是数据统计的结果,而你不能用之前的结果来预测未来的走向。
最终的结果大家都知道了,人气颇高的王以太和艾热被淘汰,这几位音乐总监被网友骂了个半死。后来艾热又在复活赛中连战五人并拿到了冠军,王以太的歌也在各大排行榜中高居榜首,又狠狠地地打脸了音乐平台的各总监们。
看来,大数据有时候并不准。把大数据挂在嘴边的人,也通常不大靠谱。
之前写了一篇关于大数据的文章——《大数据推荐机制错在哪里?》,至今并没有看到这些使用大数据算法的互联网企业有什么进步,无非是多了一些数据,优化了推荐内容,更加相信大数据和算法的力量。
然而,大数据是否能够带来不公平?是否损害了很多用户的利益?并让用户自己囚禁在自己的习惯之中?这些,并不是企业所关注的问题,也不是工程师和程序员所热衷讨论的对象。
高校排名的弊病
1983年,《美国新闻》杂志推出了原始版的大数据算法,编辑们收集了美国1800多所高校的一些数据资料,然后整理出来,将这些大学和学院进行排名。第一份排名一出,即遭到了很多人的欢迎和大骂,哈佛、斯坦福和麻省理工这些大学像所有人预期的一样,无疑会高居榜首,而其他被排名很低的学校则进行大量痛诉。
你可以说,无论什么排名,都会出现反对的声音,都会有失公允。但这还不是重点,《美国新闻》的排名开始产生影响之后,各个大学都会看重自己在排名中的名次,学生和家长们也都拿来作为参照,就导致了全美很多高校,按照《美国新闻》所设定的排名因素,进行调整自己的学校。
排名开始决定美国高校的命运。
有的鼓励新生重新参加SAT考试,增加了透明玻璃的活动中心,有的则变相地强制安排应届毕业生工作,有的甚至捏造数据……,不一而足,都是为了提高排名。
数据科学家凯西·奥尼尔的《算法霸权》一书中,如此评价这些高校的校长们:
“他们就好像又回到了学生时代,每天都在祈求老师给高分。实际上,他们正是掉进了死板模型,即数学杀伤性武器的陷阱之中。”
当初《美国新闻》编辑们随意所设置的几个参数,竟然最后影响到了整个美国高校的调整,而其实这些参数并不科学。奥巴马上台后曾经推行另一种排名,试图加入各种族占学生的比例,班级人数等指数,但却并不成功,而这些才是大学生们在接受大学教育时,非常关键的内容。
后来,《美国新闻》将全美高校排名推广到排名全世界的高校,就让情况变得更加坏。有些学校就开始钻空子,如沙特的阿卜杜勒-阿齐兹国王大学(KAU)的数学系竟然全球排名第七,仅次于哈佛,超过了剑桥和麻省理工。
使得KAU上升的原因就是该大学聘请很多数学家作为客座教授,并给予很多豪华奖励,换来的结果就是要求他们学术数据库中的通信地址改成KAU大学,仅仅这一项,就能提高这个大学的学术论文和专著成果,从而提升该校在《美国新闻》全球高校中的排名。
大数据之诅咒
你可以说,这种只是早年的一种粗糙大数据算法,现在依靠强大的计算机、云存储能力可以更加客观,设置更加多的参数,进行排名,或者运行别的计算。但是,与其原理一样,初衷都是好的(也不一定都好,《美国新闻》的初衷就是为了多卖几分杂志),结果却并不一定。
凯西·奥尼尔在《算法霸权》一书中,把这种使用数学工具建立的模型,原本是一种良好用心,最后却造成巨大破坏的算法,称之为“数学杀伤性武器”,英文为WEAPONS OF MATH DESTRUCTION,math与大规模杀伤性武器weapons of mass destruction中mass,正好只差了两个字母,读音也非常近似。
“许多数学杀伤性武器都是依靠自己的内置逻辑来定义其所处理的情况,然后再以其自己的定义证明其输出结果的合理性的。这种模型会不断地自我巩固、自我发展,极具破坏力——而且在我们的日常生活中很常见。”
上述的高校排名案例就出自该书,各个高校越来越依赖排名,排名的模型就建立了自己的霸权地位。这就是该书的重点。除了高校排名,奥尼尔所说的其他数学杀伤性武器,也在美国各个领域里应用广泛,有教师的评分系统,人力资源管理中的简历筛选系统,保险公司的承保人审核,银行的贷款者信用评定,警察的罪犯危险模型,还有左右美国大选进行的各种算法……,大数据及算法已经渗透至美国人生活的各个方面。
中国也不例外。现在几乎所有新闻类客户端都采用了大数据推荐,依据算法“认为”的客户兴趣点进行分发。离线、在线广告业务早已经采取了这种模式,看鱼撒网、见风使舵。酒店预定、旅行定制类网站也已经发觉了哪些客户可以出高价,愿意被宰。你投的简历为何被拒,恐怕要问问找工作网站是如何向人力资源经理兜售他们的简历筛选系统的。你购物、订餐甚至领取优惠券,你的个人信息是如何被中介兜售给商家的……
大数据并没有让普通人获利,而让我们都变成了别人砧板上的鱼肉,等待收割。
算法下的公平与效率
一个社会可以注重效率,也可以更加偏向公平。美国是前一种,欧洲更像是后一种。
按照倾向划分,注重效率的通常立场偏右,注重公平的就偏左。早年听到欧洲对于谷歌的限制,那时候还觉得这种做法有些过于“圣母”,但现在却更加认同。即便比某度好了不少,但任何一个企业,哪怕再宣称“不作恶”,对于盈利的追逐,也会让这个企业“恶”起来,它并不比别的盈利性企业好多少,也并不比19世纪血汗工厂里的资本家高尚多少。
但有一种体制,可以预防。20世纪对于劳工的保护,让马克思可能会倍感失望。但新兴科技企业,特别是以大数据盘剥穷人的企业,却更加缺乏监控,因为他们的算法是商业机密,是普通人永远看不到的黑匣子。
奥尼尔说,“数学杀伤性武器共有三个特征:不透明、规模化、毁灭性。”而要破除它,就要从这三个特征下手,其对立面就是:透明、用户控制和个人化。例如高校排名,可以公布各项参数供大家讨论,人力资源系统筛选要让应聘者知道自己到底哪些方面欠缺。
当然,并非建立在大数据基础上的算法模型都是坏的,也有良性的模型。奥尼尔以美国棒球、篮球职业联赛选拔选手的模型为例,这样的模型是建立在不断修正,根据经验事实不断改善的模型。也有一些模型本身就是以建立公正为目标,而不是以效率为目标。
欧洲已经在个人隐私保护方面做了很多努力,因为这是一个更加注重公平的社会。美国自有其体制予以预防,有一些人予以发声。反而,应该担心的是我们,我们这么多年已经以牺牲部分人换取了效率的提高,希望变得和美国一样,但却没有适当的机制去保护那些牺牲者和弱者,尤其是当资本与权力的结合变成惯例时,应当如何保护算法霸权下的弱势群体?
总结
我并不是要危言耸听地去反对大数据算法,而是要提醒那些正在拥抱大数据的企业、机构和政府,请慎重再慎重。正如奥尼尔在书中所说:“大数据从不缺传道者,但我不在其中”。
我也不是,希望你也三思。