互联网时代,最不缺的就是内容,但最稀缺的也是内容。
近日,一个名为“乎睿数据”的团队发现在线旅游平台马蜂窝的数据异常,该团队通过抓取大众点评、艺龙、携程等网站与马蜂窝进行对比,在马蜂窝上发现了7454个抄袭账号,这数千个账号合计抄袭了572万条餐饮点评,1221万条酒店点评,占马蜂窝官网声称总点评数的85%。
一个名为“小声比比”的微信公众号发布了该团队的数据分析结果,引发多方关注。
今日,马蜂窝发布声明称,已对涉嫌虚假点评的账号进行清理,自媒体文章所述的马蜂窝用户数量与事实和第三方机构数据都严重不符。
事实上,内容是马蜂窝平台主打的特色,很多用户使用和喜爱马蜂窝也正是因为其平台上的原创内容。
今日晚间消息,北京马蜂窝网络科技有限公司已向北京市朝阳区人民法院提起诉讼,起诉数据分析团队方深圳乎睿数据有限公司、自媒体作者丁子奎名誉侵权。
有意思的是,据界面报道,该自媒体人今晚将对马蜂窝声明中提到的“被查证的有组织攻击行为”的说法做出回应。
马蜂窝公司相关人士对此向《国际金融报》记者表示,马蜂窝后续也会有相关回应。
内容来自原创还是搬运?
马蜂窝官网显示,平台自2006年上线运营,用户数持续攀高,大部分用户来自一线大城市,马蜂窝凝聚的是一个高质量的旅游爱好者群体。依靠注册用户提供的大量一手信息,马蜂窝已先后制作推出了各类目的地旅游攻略路书,路书设计精致、新颖,路书内容涵盖当地吃住行游购娱等各方面丰富详实的旅游信息。
公开资料显示,马蜂窝自2011年以来已经获得了4轮融资,投资者中不乏今日资本、启明创投、高瓴资本、淡马锡等大型投资公司。
而此次指控马蜂窝内容虚假的数据团队则非常年轻。记者查阅企查查、启信宝发现,深圳市乎睿数据有限公司成立于2018年1月11日,注册资本102万,其“乎睿”商标注册于今年5月。
10月20日晚间,“小声比比”发布上述文章,称乎睿数据抓取了马蜂窝上116万家餐厅,并抽取了三分之一的样本进行对比分析,最终在马蜂窝上发现了7454个抄袭账号,平均每个账号从携程、艺龙、美团、Agoda、Yelp上抄袭搬运了数千条点评,合计抄袭了572万条餐饮点评,1221万条酒店点评,占到马蜂窝官网声称总点评数的85%。
该团队称对抽取的账号制定了一个非常严格的“抄袭标准”——一字不差的抄袭,才算抄袭,十句话有一句不同,就不算抄袭,以这个为抄袭标准,同时,以抄袭150个不同的大众点评账户为”抄袭账号“标准。
该团队给出了几点抄袭实锤:
这些抄袭账号出现性别和同一天所在地点自相矛盾的情况;
部分账号抄袭Yelp上的评论时调用了谷歌翻译,并将翻译错误一并搬运;
部分抄袭账号还搬运了类似乱码、广告、新闻等不该抓取的内容。
此外,该自媒体文章还称,除了这七千多个账号,还存在15000个账号在2015年中旬突然活跃,并在2016年初同时沉寂;且马蜂窝的大部分用户集中在周中写点评,一到周末便断崖式下跌。
21日晚间,“小声比比”再度发文称马蜂窝开始毁灭证据并放出了7454位抄袭账号主页,记者随即点击了部分主页发现,这些用户的点评内容均为空白。
今日,马蜂窝发布声明称,马蜂窝是旅游平台而非本地生活服务网站,用户分享的主要载体为游记、攻略与问答,马蜂窝的 UGC 内容数据中,游记和攻略占比为 78.91%,嗡嗡(旅行故事)占比 7.92%,问答占比 10.26%,而点评内容在马蜂窝整体数据量中仅占比 2.91%,涉嫌虚假点评的账号数据在整体用户中的占比更是微乎其微,马蜂窝已对这部分账号进行清理。
对于大量用户在2015年集中活跃,马蜂窝解释称,2016年以前,马蜂窝曾激励用户发表评论,点评数据出现快速增长。
马蜂窝表示,公司平均每周处理 26000 条违规广告信息,查封 15000 个违规账号。自媒体将不法商家的违规行为归结于马蜂窝,与事实严重不符。
针对声明中所称的“已被查证的有组织攻击行为”等内容,记者试图联系马蜂窝公司相关人士寻求具体解释,对方回应称“目前以声明内容为准”。
艾媒咨询首席分析师张毅向记者表示,主打内容的互联网平台是通过内容来反映用户的活跃度,利用抄袭或搬运的方法来造成虚假繁荣对平台来说确实是一种引导消费的手段,但是一旦被曝光,将会对平台造成很大的影响。
技术人士:网络爬虫抓取评论很简单
#p#分页标题#e#一位互联网从业者向《国际金融报》记者表示,简单来讲,此次事件,就是利用一些技术手段,用机器代替人,进行重复性劳动,类似新闻聚合类的网站、搜索引擎、论坛广告等都会使用爬虫技术。
他表示,项目在冷启动的时候会用爬虫数据,自己网站活跃度不高,UGC不够,只能每天去爬点数据过来。
一位后端程序员在浏览了大众点评和携程之后称,网络爬虫想要获取评论数据很简单,这两个网站本身的爬取难度不高,很多开源框架在网上有很清楚的教程,成本很低,甚至不需要学会爬虫的开发过程。
该技术人员向《国际金融报》记者介绍了具体的爬取过程——网络爬虫先设置好目标网站的url,这些页面的布局都是有固定格式的,爬虫工作时,按照事先设置好的爬取规则,抓取网页上的特定元素,元素内就包含着目标数据。
关于马蜂窝用户评论中出现的乱码、广告等内容,该技术人士称,这是因为网站识别出来是爬虫了,就返回一些设置好的信息给爬虫,爬虫误以为是真实内容。
他还表示,爬虫和反爬虫永远在更新,但是爬虫还是会更先进一些,更快地产生应对策略,有些爬虫还能把自己伪装成百度,对其他网站进行访问,这样能更安全地避开反爬虫策略。
内容搬运工层出不穷
从上个世纪90年代起,互联网就面临着信息爆炸的问题,从这个角度看,在互联网时代,最不缺的就是内容,但是正因为信息泛滥,原创内容、优质内容才是这个时代所稀缺的,原创内容生产者也成为各大内容平台所争抢的资源。
今年7月,小红书接到大量用户反映称,大众点评疑冒用小红书用户名称账号,批量建立虚假账号,抄袭及搬运用户在小红书发布的原创笔记。大众点评随后称是新上线试运营的推荐栏目在未经授权的情况下对相关内容进行了违规转载。
不仅是文字和图片内容,视频内容也逃不过被抄袭和搬运。
今年5月,抖音海外版Tik Tok第一季度登顶苹果商店下载全球第一,引发张一鸣和马化腾在朋友圈掐架,张一鸣在评论区中的一句“微信的借口封杀,微视的抄袭搬运挡不住抖音的步伐”似乎在暗指微视搬运抖音内容。
随着短视频行业的火爆,记者在网上搜索“搬运短视频”时发现了大量关于如何搬运视频、如何去水印的教程。
抄袭、搬运内容事件频发,平台、用户维权也有一定的难度。关于此次马蜂窝评论内容疑似搬运事件,北京康达律师事务所韩骁律师向记者表示,根据《著作权法》,合理使用必须具有一定的正当目的或特殊的情形,如果马蜂窝涉嫌抄袭用户评论,其具有一定的营利目的,一般不应被认为是合理使用。
但是从事件本身来看,马蜂窝是否构成侵犯著作权的行为,还需要充足的证据证明。韩骁律师称,目前国际上普遍认可的判断原则是实质性相似+接触原则,即如果被控侵权作品的作者曾接触过原告受著作权保护的作品,同时该被控侵权作品又与原告的作品存在内容上的实质性相似,除非有合理使用等法定抗辩理由,否则即可认定其为侵权作品。因此不论是判断马蜂窝是否构成侵权,还是类似内容平台的抄袭,都需要对侵权行为进行举证,从而判断是否构成侵权。