警惕“野蛮生长”!大数据光鲜背后的黑暗面:杀熟、偏见、歧视……

Winnie Lee

3434

近日,有网友爆料称自己在携程购买机票时未立刻支付,前后仅仅几分钟,先是显示无票,后又突然从17000元左右涨价至接近19000元,且同样机票在航司官网仅需16000元左右,这令当事人感觉自己被“大数据杀熟”了,并曝光到网上进行控诉。

对此,携程官方致歉并回应称,平台绝不存在任何“大数据杀熟”行为,只是发现新版本中在机票预订程序中存在BUG。目前已做了紧急修复。

大数据指的是将日常业务中大量的结构化、非结构化数据整合在一起,进行捕捉、分析、存储、共享等处理的技术。

目前,大数据可谓是无处不在,其应用涵盖各行各业的方方面面。

在商业方面,对特定数据进行分析可以发现商业趋势;在医疗健康方面,大数据可以预防疾病、建立智慧医疗和健康管理体系;在体育娱乐方面,可以预测比赛结果;在互联网行业,可以分析客户行为,进行精准推送等。随着互联网时代的数据量飞速增加,大数据技术将会越来越精准、有效。

大数据所使用的数据集增长迅速,部分原因是它们越来越多地由廉价且数量众多的设备所收集,如移动设备、航空(遥感)、软件日志、照相机、麦克风、射频识别(RFID)读卡器和无线传感器网络等物联网传感设备。

20世纪80年代以来,全世界的人均信息存储能力大约每40个月就会翻一番;截至2012年,全世界每天产生的数据为2.5 EB。

IDC发布的报告预测,2013年至2020年期间,全球数据量将会出现指数级的增长,从4.4 ZB增加到44 ZB。

IDC预测,到2025年,数据总规模将会达到163 ZB。

但正如很多新技术一样,大数据也是一把双刃剑。尽管它拥有着改变世界的惊人潜力,但缺乏适当且有效的监管时也会产生很多负面用例。

就业隐形歧视

目前,许多大型企业会使用大数据分析来筛选求职者。利用算法,雇主们可以从成千上万份申请简历中筛选出符合自己要求的求职者,甚至主动在网上寻找和招聘合适的人才。

Cohen Milstein Sellers & Toll LLP驻华盛顿合伙人韦伯(Christine Webber)在接受彭博社BNA采访时表示,部分员工可能会被要求完成相当于老式性格测试的在线测试,然后他们的答案可能会被一种快速判断的算法扫描。

算法被用来搜索潜在求职者的“数字足迹”,包括那些没有申请工作或没有积极寻找新工作的求职者。这种“数据挖掘”旨在挖掘出候选人的所有在线信息。

该公式利用公司在职成功员工和在线候选人特征之间的统计匹配来预测哪些人也会成功。

华盛顿大学圣路易斯分校(Washington University in St. Louis)法学教授Pauline Kim说,公式中的因素可能在统计上与工作成功有关,但不一定与工作表现有因果关系。Kim告诉彭博社BNA,这些算法实际上可能并不能衡量一个人完成这项工作的能力。

它们还可能导致雇主寻找与公司目前所拥有的员工相似的人,可能会使女性、少数族裔或其他弱势群体被无意识地排除。绩效评估也可能会受到无意识偏见的影响。

也有可能,某些可识别的人群的“数字足迹”比其他人要小,而且不会被在网上寻找潜在求职者的模型发现。

种族、性别偏见

此前,麻省理工学院(MIT)研究人员发表的一项新研究发现,在特定情况下,Rekognition(亚马逊图像识别技术)无法可靠地辨别女性和深肤色人群。

该项研究的合著者称,在 2018 年进行的实验中,Rekognition 错误地将 19%的女性图像识别为男性,将31%的深肤色女性图像识别为男性。相比之下,微软在识别深色皮肤人群性别时,将女性错认为男性的比例只有 1.5%。

此前,美国公民自由联盟(American Civil Liberties Union)对 Rekognition 进行了一项测试:把 25000 张罪犯面部照片和国会议员的官方照片进行比较。结果 Rekognition 将 28 名议员误判成罪犯,其中有色人种的错判率占到 38%。

亚马逊质疑了这两次测试的准确性,它表示,Rekognition 升级版的内测结果显示,该技术对于识别性别的正确率不存在人种差异。此外,亚马逊认为最近的这篇论文没有清楚地说明在实验中使用的置信度阈值,即 Rekognition 的判断被认为是正确而必须达到的最低精确度。

2012 年的一项研究显示,Coigntec(德国从事生物特征识别技术的公司)的人脸识别程序在识别非裔美国人和白种人时存在差距,前者比后者的错判率高出5%到10%。

弗吉尼亚大学(University of Virginia)进行的另一项研究显示,ImSitu 和 COCO(两个知名的图像数据集)在描述体育、烹饪和其它活动时表现出性别偏见(其中 COCO 由 Facebook、微软和初创公司 MightyAI 共同赞助)。例如,购物图片倾向于与女性相关联,而教练图片则与男性相关联。

也许最糟糕的一个例子是:2015 年一位软件工程师报告称,谷歌照片的图像分类算法将非裔美国人识别成“大猩猩”。

错误的推断

海量的数据往往令科学家和分析人士兴奋,但他们未必看到了大数据的全貌。

普林斯顿大学(Princeton University)统计学家Jianqing Fan及其同事在报告中写道:“科学进步正变得越来越受数据驱动。”

“海量的数据给数据分析带来了机遇,也带来了新的挑战。”

收集、存储数据并不等同于理解它。样本选择、分析方法等环节都可能对计算结果产生影响。

大数据样本不仅需要花费更多时间来分析,而且通常还包含关于每个被采样个体的许多不同信息——这意味着,用统计学的话说,它们是“高维的”。“维度越多,发现虚假相关性的风险就越大——一些看起来显著、重要的联系实际上可能只是巧合。

例如,一项医学研究可能将药物的成功与患者的身高联系起来。但这可能只是因为大数据包含了从身高、体重到眼睛颜色、鞋码和最喜欢的棒球队等所有信息。由于要考虑的维度如此之多,其中一些似乎只是偶然变得显著。

“高维度,”Fan和其合作者写道,“可能导致错误的统计推断和错误的科学结论。”

此外,数据的时间、来源、获取方式不同也可能造成统计偏差。

“杀熟”和价格歧视

如果说错误推断、各种歧视和偏见都可能是无心的,那么大数据“杀熟”就会让用户感到恶意满满了。

不止携程,美团、饿了么等外卖软件,淘票票、飞猪等各类购票软件,甚至京东、天猫超市这种“国民”APP,都曾被曝光出“杀熟”问题。

同样服务新老用户价格不一样、使用苹果手机和安卓手机的用户价格不一样、取消订单后重新搜索商品会涨价等种种手段都有不少网友爆料过,可谓套路多多。

其中最著名的案例就是2000年的亚马逊。当时,有亚马逊用户反映,他删除浏览器的cookies后发现,之前浏览过的DVD商品售价从26.24美元降到了22.74美元。

最终在巨大的舆论之下,亚马逊 CEO 贝索斯亲自站出来向公众道歉,并解释说明这只是向不同的顾客展示的差别定价实验,只是测试阶段,保证和客户数据没有关系,随后就停止了这一实验。

2020年产业规模将突破万亿

鉴于大数据时代个人隐私保护的困难程度,已有专家提出了“遗忘”的必要性。牛津大学教授、大数据领域权威专家维克托就在他的著作《删除》中表示,对于人类而言,遗忘一直是常态,而记忆才是例外。

电子商务研究中心主任曹磊指出,大数据“杀熟”暴露出大数据产业发展过程中的非对称以及不透明。他认为,大数据杀熟的行为涉及面比较广,需要很多政府部门参与监管,也需要依靠企业的自觉。

电子商务研究中心生活服务电商、共享经济助理分析师陈礼腾认为,大数据是一把“双刃剑”,用得好的可以更好地为消费者服务,提升用户体验。若通过大数据进行违背道德的操作,那将是一个平台的悲哀。

在产业方面,我国大数据产业多年来保持平稳快速增长,但面临提质增效的关键转型。2018年,我国大数据产业延续多年来的增速,继续保持相对高速的增长。

据前瞻产业研究院发布的《中国大数据产业发展前景与投资战略规划分析报告》统计数据显示,2015年我国大数据产业规模已达2800亿元。截止至2017年我国大数据产业规模增长至4700亿,同比增长是30.6%。初步测算2018年我国大数据产业规模达到5400亿元左右,同比增长15%。预测在2020年我国大数据产业规模将突破万亿元。然而,综合国内外环境、新兴技术发展等多种因素,大数据产业的增速出现了下滑。我国的大数据产业也面临着从高速发展向高质量发展的关键转型期。

2015-2020年我国大数据产业规模统计情况及预测

45

数据来源:前瞻产业研究院整理

在大数据技术快速发展的同时,我们也要警醒随之暴露出来的各类问题,绝不能“野蛮生长”。

可行性研究报告

广告、内容合作请点这里:寻求合作

咨询·服务

相关阅读

精彩推荐