【TechWeb】5月26日,在极客公园 Rebuild 2019 科技商业峰会上,搜狗CEO王小川就“人与机器共创未来”发表了演讲,他认为未来技术跟人会产生新的融合,它会改变我们人。
王小川表示,近今年他经常会被问到2个为题,一是什么样的工作将会被取代?二是人类是否会被机器取代?
王小川认为,对于人工智能今天的局限性,机器对于复杂的未曾见过的感知问题还没有办法处理,但是对于见过的场景里已经可以比人做得更好。另外一个问题就是认知领域,机器就会难很多了,尤其是跟语言相关的,另外人类还有迁移学习能力,机器目前都不具有。
在这种局限性下,王小川表示在认知问题里面机器只能辅助人类。王小川认为,在认知问题里面,机器只能辅助人类,比如说当你写一部小说或者对话的时候,机器并不能独立工作,但在感知问题里面,机器可以独立上岗,比如图像和语音的处理技术。
在人最擅长的领域里边,机器的设计原理,从目前可知道的技术成都是没法到达的;但是倒过来,机器所擅长的这些事情,人也做不到。王小川认为,离开技术,人类会变得更加弱小,但是跟技术在一块人类会变得更加强势。如同眼镜让近视人群获得良好视力、手机让人们拥有“千里眼、顺风耳”,未来技术会改造我们,会把我们变成新的人类。
以下为王小川演讲全文:
非常荣幸今天在成都做这个主题演讲。张鹏每年都会给我一个新的主题,我再去融入自己的思考。这次的题目非常难,讲人与机器的共创未来。在这里面,很关键的问题是要理解,今天人和机器是怎样一个关系。
我们一直在寻求人和机器的关系。在讨论这种关系的时候,就要涉及到整个历史的趋势,尤其是什么事情是必然会发生的。只有对趋势有了解,对于必然有认知,我们才能够开始探讨“人与机器的关系”,这个哲学上的问题。
纵观历史发展,我们经历了几个时代,从史前文明、农业文明、工业文明到信息文明,每次都是有重要的技术突破。离我们最近一次的信息文明其实并没有结束,是计算机和互联网发展推动了信息文明的快速发展。
即便到今天,在中国还有大量的场景并没有信息化,比如教育,现在学校都在利用信息化推进它们的整个部署。但这时候已经有一个苗头了,就是智能文明的降生。说到智能文明,人工智能是我们绕不过去的话题。
人工智能有广义和狭义之分。狭义的人工智能,讲的就是2012年之后的深度学习,尤其是2016年阿尔法狗的诞生。可人工智能有更长的历史,最早从上世纪六十年代的专家系统,之后是特征工程,到现在我们开始使用的更多的监督学习,尤其是对语音图像的处理能力。
在深度学习和监督学习之后,我们还在做的工作行业内叫强化学习,或者是认知推理,这个到现在还没有进入到实用阶段。我们今天讲到的深度学习还停留在现有的语音图像处理阶段。所以,我们很好奇未来这样的必然趋势,是必须对技术的发展有很多具体的了解。
今天不是讲理论课,我更多是想探讨背后的技术将会带来什么变化。其实,2016年给我最大的冲击是阿尔法狗,我们称之为一场启蒙运动。相对以前的文艺复兴,它是在探寻人和人,以及人和神之间的关系。阿尔法狗之后,我们关注的是人与机器的关系。
2016年那场比赛我参与比较多,我在新浪直播全程见证了李世石被机器打败。在那场比赛中,跟我一块做嘉宾的是中国围棋队总教练余斌。赛前,他坚定认为人一定会打败机器,甚至觉得机器能够下围棋是一件不可理喻的事情。
比赛之后,余斌教练的精神出现了一定的崩溃,我听说是新浪编辑帮忙打车送他回去的,他已经不知道怎么打出租车了。当一个机器文明诞生时,对于我们来说,特别是专家,被机器取代的那一刻,自己内心是难以接受的。之后在医疗、驾驶等各领域都会发生这样的变化。
比赛前我们对阿尔法狗有很多质疑,比赛之后,我们发现很多年轻朋友把阿尔法狗称为狗狗,对它有很大的接受,围棋九段选手们把它称为阿老师。今天,我们通过拟人化的方式接纳了机器。这种接纳的速度会更快一些。
什么样的工作将会被取代?这是很多媒体人好奇的问题。我想,这是近期要去解决的回答,还有一个问题是人类是否会被机器取代,这是更加远期的问题。实际上,16年到现在的3年时间,我永远被追问的最核心问题也是这两件事情,而不是探讨背后的技术本身。
#p#分页标题#e#关于近期的问题,什么样的工作将被机器取代?我们要理解当下机器本身的强大,以及它目前的局限性。我们收到媒体或者影视作品的解读,理解到机器强大,想象它已经变成人的形状,能跟你对话,甚至比你更加厉害。实际上,今天的技术远远没有到。
今天,我用两个观点来阐述现在人工智能本身的局限性。第一,今天人工智能已经具有了强大的感知能力。什么感知呢?就是听觉、视觉,跟外界接触之后进行信息低层次处理的感知。现在图像识别里面,机器做人脸识别已经可以超越人了。
今天早上,我看新闻讲京东开始养猪,做了一个猪脸识别系统。我们知道人在做人脸识别的时候,是天生的在几千万年进化里面对人像的理解,机器用几年时间就学会了。但我们人类识别两只猪长得有什么不一样会变得更加困难。
可对于计算机而言,学习猪和学习人的脸部特征是类似的事情。这样的领域里面,机器的感知能力是可以接近甚至超过人的。
但是要强调一点,这些能力是在它见过的有限的环境里面。人的能力则在于两人说话的时候有一个鸡尾酒效应,一个人讲话时是一种声音、音色,另一个人是另一个音色,两个人同时讲话的时候人很容易区分,机器目前还做不到。今天,机器对于复杂的未曾见过的感知问题还没有办法处理,但是对于见过的场景里已经可以比人做得更好。
另外一个问题就是认知领域,机器就会难很多了,尤其是跟语言相关的。语言是我们对世界的一种抽象认识,就像人类简史里讲到的。我们在森林里去找仙女,这样的事情是有概念有故事的,这个事情机器没有掌握。加上人类还有迁移学习能力,机器目前都不具有。
在这种局限性下,我们可以做一种简单的断言,在认知问题里面机器只能辅助人类,比如说当你写一部小说或者对话的时候,机器并不能独立工作,但在认知问题、感知问题里面机器可以独立上岗,就像图像和语音的处理。
我们的做法是以语言为核心,去探讨语言相关的感知和认知,感知是处理语音、图像,认知处理的是对话、翻译和问答。这个感知里面已经可以做到跟人的水平相同,但是在认知领域会非常难。
从优先顺序看最容易做的事情是机器翻译。即便如此,今天我们可以看到它跟人相比较起来也有一定的差距,尤其人觉得特别简单的事情机器并不一定处理很好,而人觉得复杂的问题机器可以做得很好。这与感知不一样。在感知方面,机器可以全面地比人做的好,机器不精准的地方人也做不好。而认知世界里,机器和人好像是不同类型的人。
感知里面,我们做了语音识别。搜狗是中国今天ToC领域语音识别量最大的引擎。因为我们拥有中国最大的输入法,每天有超过6亿次语音识别请求,包括语音修改,目的就是以语言为核心使得人跟人通过感知能进行更好的沟通。
之后,我们觉得这件事情不代表技术前沿,我们又做唇语的识别,之前是用声音转化为文字,现在我们可以做到用嘴形变化转化为文字,我们是最早公开演示的系统,而且在特定场景的识别率已经高达到90%。
最近,我们刚刚发表了一篇论文,关于机器和人语建模,在嘈杂环境能大大提升人语识别的准确度,在我们北京的实验室和展厅里面可以体验到这样的技术。
除了语音识别,还有语音合成,包括风格迁移。在互联网上,除了机器能识别你以外,当你在表达的时候,机器能够做更多辅助的工作,这个系统是先用14分钟我的语音做训练,然后跟特定的歌合成,我们可以把自己的音色做迁移,变成个性化合成,这是用我的声音来唱歌。所以语音里面,这样一个技术已经可以做到除了图像识别以外,还能做各种声音的变换,下面我们还可以展示更加先进的技术。
除了这样的迁移以外,我们现在还能做到的就是AI语音变声的技术,我们应该是首次将语音变声技术用到实际的产品里面,今年谷歌大会发表了语音表征识别的技术,我进行一下演示,可以把任何人的声音转化成特定的声音,这是在表征学习当中一个重大的突破,我们也是首次把它做了实用。这里点语音,然后点变声,我们做了很多人的特定音色,从明星,到卡通人物,到特别声音,比如高晓松,我可以给大家演示一下。
(高晓松声:大家好,欢迎来到极客公园2019年现场和大家一起分享人和机器的共创未来。)
还可以变成其他的动漫声音,游戏声音,或者剩下的方言。这样的变声技术并不是简单的语音合成,能把语音、语调、情感做到这样一个迁移。所以在输入法中间我们做了一件好玩的事情,大家意识到没有,这里只是好玩。可当我跟网络教育行业进行沟通的时候,整个行业沸腾了。
#p#分页标题#e#在远程的直播行业当中,我们遇到有些老师带有口音,我刚才是把一个普通话转成带有东北腔,但倒过来你口音能转成正常的语音,在知识付费的这种远程教育当中,这些学校的老师,或者说之前找的导游,会对他们有一个新的颠覆。
有一些导游声音可能不足够好听,但知识很渊博,对于一个网络的知识付费的公司而言,当他找不同人的时候也要考察他们的音色到底好不好。现在可以把任何一个人,5毛钱的音色变成价值50元的音色,而且当他找不同的老师或者导游的时候,产品也能做到非常标准化,因为输出高度一致。今天在表达信息和获取信息上,语音方面已经可以做到非常的突破了。
今年年初我们发布了另外一款技术,叫做AI的合成主播。这件事情把语音、图像和文字的关系完全联动起来,我前面讲的技术能够把嘴形识别变成声音、变成文字,现在我们倒过来,也是同样的技术,能把文字变成声音变成它的表情,并且在这里面我们年初已经在新华社和央视里面上线了这样一个产品。
这就是我们称之为的AI合成主播,能合成人的声音、嘴形、表情,同时也是我们全球首个用AI能取代人的分身技术。这个技术发布之后,全球100多家媒体都能做这样的报道。我们给大家看看效果。
这个技术在年初已经上线,全球很多媒体都会采购,包括国内最大的一家保险公司在线客服也将采用我们的技术,用机器取代部分人。在感知视觉里,机器和人沟通机器能做到很大的取代人的作用,独立开展工作。
这是我们做的机器翻译,包括语音同传,我们有非常丰富的落地场景,我们之前首个离线翻译引擎,用到离线翻译机,没有网络的情况下也能工作。我们也能在讲中文和英文的时候,翻译成其他国家的文字进行传递。我们还能翻译成全球的文字,全球更多的网络咨询是英文文写的,我们现在能用中文浏览很多内容。
今年初,我们还推出搜狗的录音笔,希望将语音的感知和认知技术更好地结合。因为这个领域,我们发现发现仅手机的场景已经不太够用。录音笔在重新定义录音笔行业,跟以前最大的区别是,当你关掉录音笔以后,它还能实时传到终端设备,并且实时转成文字,1小时的语音5分钟可以成稿。
为什么做这个工作呢?我们在医院里,当医生跟病人沟通时,我们可以用它生成病例。医疗整个大环境当中,信息化做得远远不够,最大的环境是门诊的地方。医生和病人的沟通,现在没有写成一个规范的病例,这使得我们整个医疗AI很难实现。
语音到语言的转换,写摘要、写病例,甚至法庭写记录的方式改变,会使整个行业发生心的变化。我刚刚提到的这个领域,这样一个认知是很困难的。搜索语言就出现很大的瓶颈,几乎很难理解用户想要的关键词是什么意思,通常机器作为辅助是给你更多的结果做选择,给你十条结果。
未来,随着AI技术发展,机器越来越准确之后,这样一个辅助能够逐步给你标准答案的结果。这里可以看到,从语言处理当中,我们的努力方向就是从搜索走向问答,以后你用语音提问给你直接的结果。现在,我们能看到40%的用户提问能给到直接的回答。从搜索到问答,最终的形态是走向个人助理,让机器和人产生后面的交流,能辅助你完成一些任务。
这里给大家画一个很有意思的图,我们认为整个行业在感知、认知领域里面,未来技术可能带来的产品变化。
下面这个图是一个基于感知、语音图像处理的进步,带来的变化。从文字、语音到图像,包括输入法、智能硬件,甚至合成主播,这是感知问题里面能够做得非常快,且能独立工作。的部分。
在纵轴认知上的发展,更多带来计算、推理、认知的能力。搜索再往下走能在医疗领域里做更多的信息处理,如果再带上语音的冲力,可能能做到以后问答的机器。
从横轴的自然交互到纵轴的计算,到最后我们能实现智能助理和AI助理,帮助每个人取得分身,把你的能力在互联网上变得最大,这是我们从近期开始演化,大家能看到的过程。智能硬件和智能音响还只是处于中间的位置。
回到更大的话题,这不是搜狗一个公司能完成的事情。人类是否会被机器取代,这是我们认为长期需要回答的事情。有一个悖论,学术上很有名,我们的感知说人脑太聪明了,我们竟然能造成出一台比自己更聪明的机器,但是另一个人说人脑太聪明了,我们不能造出一台比人脑更聪明的机器。
#p#分页标题#e#大家理解吗?这两个句子都是成立的,人脑聪明的时候,到底是否机器能超过人自己,这是很难回答的问题。这里可以看到,我的断言,未来我们所做出的人工智能跟人脑不是进行直接的比较,也不是做出拟人的机器成为人工智能发展的未来,而是走不同的道路。
在人最擅长的领域里边,机器的设计原理,从目前可知道的技术成都是没法到达的;但是倒过来,机器所擅长的这些事情,人也做不到。就像一个计算器,我们不会跟一个计算器比拼计算速度怎么样,同时未来的人工智能在特定领域里的使用也一定远远超过人,这是人没法跟机器较量的。
但是,我们通用的智能,我们的生命力,适应环境的能力,在可见的技术里面,机器也是做不到的。这里我想提到的一个基本观点,首先不要妄自菲薄,我们想机器会把人取代了,因为我们找不着一个方法比人更厉害、能完整替代人的机器。
但是我们之前有一种狭隘的理解,我们特别害怕机器在某个领域里面把人给超越了,就像下围棋一样。事实上,我们要去接受机器在很多情况里面能够替代人的部分的功能,或者增强人部分的功能。比如在座各位有很多人都在戴眼镜,大家想过没有,你已经被技术入侵了,因为眼镜使得你视力变得更好,因为手机我们每个人变成千里眼、顺风耳,未来一样的,技术跟人会产生新的融合,它会改变我们人。
离开技术,我们会变得更加弱小,但是跟技术在一块我们会变得更加强势,所以不要狂妄,我们对技术是碾压的态度,技术会改造我们,会把我们变成新的人类。
跟一个猴子说,如果改变基因把你变成人你会愿意吗?猴子会说我肯定不愿意,因为它不理解你在说什么。同样的,我们如果用技术改变一个人,把你变成一个超人你会愿意吗?今天就在发生这样的事情,我们大多数人还是采取这种拒绝的态度,因为觉得人更渺小,但是未来人跟机器会有一种新的合体,跟技术在一块我们会变得更加强大,形成新的生态,这是人与机器协同进化的未来。
我们的使命是在人工智能中做简单的工作,让表达和信息获取变得更加简单,在大时代找到自己的位置。谢谢。