5月6日消息,据外媒报道,在过去一年里,印度海得拉巴一支由260名合同工组成的团队浏览了自2014年以来发布的数百万Facebook照片、状态更新和其他内容。这些人按照Facebook所说的五个“维度”对内容进行分类。这些内容包括帖子的主题,例如它是食物、自拍照亦或是动物?什么场合,日常活动或重大生活事件?作者的意图是什么,策划一次活动、激发灵感还是开个玩笑?
Facebook表示,这项工作旨在了解用户在其服务上发布的内容类型是如何变化的。这可以帮助该公司开发新的功能,潜在地增加使用率和广告收入。几个月来,外包公司Wipro的多名员工提供了有关Facebook这个项目的细节。由于担心遭到印度公司的报复,员工们不愿透露姓名。Facebook后来证实了该项目的许多细节。Wipro拒绝置评,并将所有问题提交给Facebook。
Wipro只是Facebook手动贴标签项目之一。而在Facebook内部,任何时候都有约200个内容标签项目,该公司为此在全球雇佣了数千人。许多项目旨在“培训”软件,该软件决定了用户新闻流中出现的内容,并为许多其他功能背后的人工智能(AI)提供了动力。
此前,没有任何这种贴标签努力的报道。Facebook人工智能产品管理总监尼潘·马图尔(Nipun Mathur)说:“这是我们所需要的核心部分,我不认为这种需求很快会消失。”
相关法律专家称,Facebook的内容标签计划可能会给其带来新的隐私问题。该公司正面临全球各国不同监管机构的调查,原因是其涉嫌多起侵犯隐私的行为,涉及与业务合作伙伴共享用户数据。
Wipro的工作人员表示,当他们看到度假照片或悼念已故家庭成员的帖子时,他们就有了了解这些人生活的窗口。Facebook承认,某些帖子(包括截图和评论)可能包含用户名。该公司表示,其法律和隐私团队必须在所有标签工作上签字,并补充称,该公司最近推出了一项审计系统,以确保隐私规则得到遵守,现有参数按预期发挥作用。
但一位不愿透露姓名的前Facebook隐私经理对此感到不安,特别是在未获得用户明确许可的情况下,Facebook对他们发布的帖子进行审查。欧盟颁布的《通用数据保护条例》(GDPR)已经生效一年,它对公司如何收集和使用个人数据有严格的规定,而且在许多情况下需要用户本人同意。
Wiggin&Dana律师事务所的合伙人约翰·肯尼迪(John Kennedy)说:“GDPR的一个关键部分是目的限制。”他补充说,如果Facebook的目的是寻找提高服务精度的贴文,那么应该明确说明这一点,雇佣外部供应商进行这项工作也可能需要征得用户事先同意。
目前还不清楚GDPR将如何解释,监管机构和消费者是否会认为Facebook的内部标签做法存在问题。欧洲最高数据隐私官员拒绝就可能的担忧置评。Facebook的一位女发言人表示:“我们在数据政策中明确表示,我们利用人们向Facebook提供的信息来改善他们的体验,我们可能会与服务提供商合作,并在这一过程中提供帮助。”
美国民主党参议员马克·华纳(Mark Warner)是是社交媒体的主要批评者,他在一份声明中表示,大型社交平台“从用户那里获取的数据越来越多,用于更广泛和更深远的用途,而对用户没有任何相应的补偿。”华纳说,他正在起草一项法案,要求Facebook“披露用户数据的价值,并告诉用户他们的数据是如何被货币化的”。
人力内容标注也被称为“数据注释”,得益于公司寻求利用数据进行人工智能培训和其他目的,这个行业正日益繁荣起来。自动驾驶汽车公司(如Alphabet旗下Waymo)利用真人标签识别交通灯和行人,以增强他们的人工智能。包括亚马逊在内的语音助理开发人员都会对客户的音频进行注释,以提高人工智能破译语音的能力。
Facebook于去年4月推出了Wipro项目。据工作人员表示,这家印度公司收到了价值400万美元的合同,并组建了由大约260名标签工人构成的团队。去年,这项工作包括分析前五年的Facebook贴文。完成这项工作后,该团队在12月份被削减到大约30人,并从上个月开始改为每月为贴文贴上标签。他们说,预计工作将至少持续到2019年底。
Facebook证实了Wipro项目的人事变动,但拒绝就财务细节置评。该公司称其分析正在进行中,所以不能提供任何关于内容标签和由此开发出的产品的结论。与此同时,Facebook也没有告诉标签人员该项目的目的或结果。工作人员称,他们从有限的浏览中推断出,自拍越来越受欢迎。
#p#分页标题#e#
Wipro贴标者和Facebook表示,这些帖子是对基于文本的状态更新、共享链接、活动帖子、故事功能上传、视频和照片的随机抽样,包括用户在Facebook旗下各种即时通讯应用上发布的聊天截图。这些帖子来自全球的Facebook和Instagram用户,使用的语言包括英语、印地语和阿拉伯语。
Facebook表示,每个条目都会交给两个标签人员来检查准确性,如果他们存在分歧,就会增加第三个标签人员。工作人员说,他们平均每天看到700个条目。Facebook表示,目标平均水平较低。Facebook还证实,罗马尼亚蒂米索拉和菲律宾马尼拉的贴标者也参与了这一项目。
在Facebook的其他标签项目中,外包供应商Cognizant在海得拉巴的一名员工表示,他和至少500名同事在Facebook视频中寻找敏感话题或亵渎语言。Facebook说,其目的是培训一种自动化的Facebook工具,使广告商能够避免赞助成人或政治视频。Cognizant没有回复记者的置评请求。
Facebook的人工智能产品管理总监马图尔表示,标签的另一个应用涉及Facebook的Marketplace购物功能,它通过让贴标者和产品专家对某些现有商品进行分类,实现了对新商品类别推荐的自动化。
Facebook用户无法选择退出他们的数据标签。在Wipro,被审查的帖子不仅包括公共帖子,还包括那些被私人分享给有限用户朋友的帖子。Facebook产品支持运营总监凯伦·库灵顿(Karen Courington)表示,这确保了样本反映了人们在Facebook和Instagram上的活动范围。
Facebook的数据政策没有明确提到手工分析。该政策规定:“我们向支持我们业务的供应商和服务提供商提供信息和内容,例如提供技术基础设施服务、分析我们的产品的使用情况、提供客户服务、促进付款或进行调查。”
欧洲的GDPR还要求公司应要求删除用户数据。Facebook表示,它有一项技术,可以将贴上标签的帖子与删除请求和内容隐私设置的更改进行同步。
Facebook和其他公司正在测试一些技术,以减少外包标签的需求,部分原因是为了更快、更便宜地分析更多的数据。举例来说,针对盲人的新闻推送排名和照片描述的人工智能培训数据来自Instagram帖子上的标签。马图尔称:“我们尽量减少我们发出的东西的数量。”