对于驰骋消费电子领域多年的
出门问问来说,2018 年是具有里程碑意义的一年。
在五月份举办的发布会上,出门问问发布了国内首款可量产,并可立即采购的 AI 语音芯片模组「问芯」,这对国内智能制造产业来说,是具有重要影响的事件,也让一直以 C 端用户为主导的出门问问,进一步走向了 B 端。
从 2013 年的出门问问 app,到 2014 年的智能手表操作系统 TicWear,到 2015 年软硬结合的中国智能手表 TicWatch,随后是 2016 年的智能后视镜 TicMirror,2017 年的 TicKasa 智能音箱,到 2018 年年初的智能无线耳机 TicPods Free,出门问问尝试通过智能可穿戴、智能车载和智能家居三大场景布局消费领域,并取得一定成功,这无疑让这家公司有了更多展示智能语音技术未来生活的可能,但更进一步,也让出门问问对于 C 端消费者有了非常深入的了解。
对于消费者需求的把控,对于智能语音行业的观察,给了出门问问极好的切入 B 端的机会。那么对于出门问问来说,当语音交互从 C 端走向 B 端,将会产生怎样的行业创新,智能语音交互如何深刻影响我们的未来?在 7 月 21 日的极客公园 Rebuild 2018 科技商业峰会现场,出门问问创始人& CEO 李志飞就带来了他的思考与分享。
以下是李志飞在极客公园 Rebuild 2018 科技商业峰会上的演讲实录(经过极客公园编辑,略有删减):
出门问问在 2012 年就开始做语音交互相关的东西,那时大家对人工智能还不是很了解,出门问问就做了很多这方面的前沿技术探索。从语音识别技术本身的研发,把声音转成文字到怎么理解这个文字,到后面怎么跟服务对接,整套系统都是在 2012 年就做了很多研发。在那时候技术非常不成熟,而且大家对这个技术能干什么也不是很清楚,所以是属于非常前沿的技术探索。
为了把语音交互落地到非常有用的场景里,我们做了很多探索。早期主要是把语音交互放到消费电子场景下面,比如过去几年基本每年出一个新的品类,智能手表、智能车载设备、智能音箱、智能耳机,每一个设备都是作为普通消费者能感受到的未来语音交互的需要。由于今天很多技术的限制,体验不一定是最优的,但我们认为在未来的消费场景里面,可穿戴、车载和家里的场景基本上会覆盖语音交互。
今天在过去四五年的探索后,我们觉得整个语音交互技术,包括其他行业 AI 的技术,都从前沿的技术变成了一个基石的技术。前沿技术的特色就是大家的认知很不清晰,技术很不成熟,不知道用在什么地方。但是经过过去几年的教育也好,尝试也好,变成了一个基石技术,需求更加清晰了,我相信在座的绝大部分人都用过一些语音交互的设备,或者是场景。整个技术也稍微成熟一点,这个时候变成基石技术,整个市场会有什么样的变化?
当语音交互成为基石技术
首先大家可以看到这是一些咨询机构的数据,无论是用户的使用规模,比如语音搜索,可能从 20%,未来变成 50%,你每搜十次搜索引擎,有 5 次是语音的交互方式。这不一定是在手机上,可能是在音箱上,可能在车里面,都是用语音交互做。但是做的事情主要是为了搜索内容。包括大家非常清楚的智能音箱这个市场从无到有,现在全球是几千万的市场。
从设备场景的角度去看,语音交互可能有那么几大类,一个是 to C,一个是 to B,另外还有一个 to G。To C 前面讲了很多,各种各样的交互设备,更多的是来变更人与机器的交互方式。比如车里面和家里面,当你在路上的时候,今天可能更多是键盘和触摸屏,但是未来语音交互也会成为非常重要的交互方式。
To B 更多是帮助企业去提供更好的工具,提高他们的效率。因为工具更加个性化和人性化,就可以帮他们的用户提供更好的用户体验。To G 跟 To B 比较类似,只是行业不太一样,比如司法、医疗、教育可以有很多应用场景,比如高考的打分,这都是偏政府的行业,是通过语音提供一个更有效率,用机器可以自动完成的事情,或者提供更好的用户交互的方式。
当语音交互的技术从非常前沿的技术变成基石技术。作为语音交互的创业公司,出门问问在过去一年多时间里做了一些探索,主要总结来说有两个方向,上游是跟芯片深度集成,下游是垂直行业深度绑定。
#p#分页标题#e#
出门问问是全世界全中国少有的面向消费者 to C 的 AI 公司,但现在我们从纯 to C 在尝试一些 to B 的落地,主要的优势有这么几点。第一是 to C 时我们需要提供完整的体验,这导致我们开发了很多完整的技术链。当我再去给一些企业提供服务的时候,比如做一个智能的客服系统,无论是语音识别还是知识题库,出门问问都有自己的技术,不需要整合第三方。这样的好处就是可以做很快的定制,同时我们因为有软硬结合的产品,这些是一站式的,不需要找多家合作伙伴。
还有一个特别重要的优点,出门问问在过去做 to C 的,用户体验是非常重要的。To B 很多服务用户体验不是很好,因为 To B 的项目是一单一单的,没有足够的人力为单一的项目做出很好的体验。出门问问过去在 to C 层面做了很多积累,所以即使到 to B 的场景,还是可以提供非常好的用户体验。
这里举一个例子,我们因为有自己的软硬结合和算法基础,可以很快定制。所以最近跟台湾远传电信联合发布了智能音箱,基本上用三个月的时间就打造了台湾本地的系统,从硬件到软件到语音助手。对方之前花了六个月跟三四家合作伙伴,有的做语音,有的做内容整合,有的做硬件一直没有解决,我们只是三个月就可以快速的达到非常好的体验,这就前面说的 to C 结合 to B 的优势。
接下来讲一下我们的产品和优势。首先是我们发布的问芯,这是 AI 语音芯片模组。解决的问题就是现在的智能电视不能远处唤醒。这是和杭州国芯一起合作。但我们把麦克风的技术,信号处理的技术,包括低功耗的唤醒技术做到芯片里面去。只要用一个 usb 线跟我们这个芯片连接,智能电视一下子就成为一个可以远程语音交互的电视。这样的合作大概三四个星期就可以把体验做出来。在以前,如果一个语音软件方案直接跟智能电视去整合,可能三四个月都整合不出来,而且效果都非常差。
另外,我们也会发布一个专门面对 IoT 的设备控制芯片,比如室内空调、灯泡等等就不需要通过智能音箱作为控制台。我们希望未来芯片模组可以直接放在灯泡里面,回家直接说开灯关灯就可以打开,而不是现在先要把音箱唤醒才能交互。当然这是还在研发的产品,在未来我觉得非常具有前景。这种设备可以用非常人性化的,不需要前面的唤醒词就可以直接唤醒,会带来非常好的用户体验的改进。
智能语音的深度想象
前面是智能电视芯片,是在上游提供更好的体验。接下来是下游场景能做什么。这里有一个系统叫问真,是 AI 金融的反欺诈系统,当你找金融机构贷款的时候,很重要一点就是金融机构判断你是不是你,你说的是不是真话。比如你说你住在地段很贵的地区,比如在北京的国贸,系统要判断你说的是不是真话。
我们有一个系统根据你说话,它会自动问你一些问题,这个问题不是提前设好的,是根据你说的话来问,系统也知道答案。根据你回答的答案和系统答案是不是一致,就可以判断是不是真话。这里面用到很多,还有人脸识别,识别是不是你,还有基于数据库的对话系统,判断你是不是真实的,是真实的才会进行贷款的动作。
这就是根据你提供的一些信息,然后后台会自动的根据你的信息提出一些问题,然后它也知道答案,考核你说的是不是真的。以前的系统是你填了信息以后,有一个人专门给你打电话,然后去念一些一样的问题,然后你答。很大的问题就是因为这个工作非常枯燥,很多时候打给你电话的人问题就是统一的,基本上你一个人问了一遍,另外一个人再去考试,基本上就能够作弊。
但是像我们这个是完全个性化的系统,根据你的答案不一样,可能会有不一样的问题,所以基本上很难作弊。第二由于背后是自动化的系统,具有实时性,也不需要花费人力。在我们看来把语音交互放在这个系统里面是非常好的创新。
再给大家讲的是在保险行业的语音交互例子,保险行业也是 to C 的,我们所做的事情就是利用 to C 的经验,跟保险后台数据系统结合起来,最后去提供一个更好的用户体现,使他们的用户对他们的服务更加满意。这个其实大家可以看到是 to C 的,和我们买的智能音箱的交互是一模一样的,但可以带来的就是跟具体的保险业务结合起来,让你的交互做得非常的像 to C 一样的体验。
#p#分页标题#e#
还有一个例子是我们在智能家居或者房地产行业跟合作伙伴做的解决方案,也是下游场景的深度应用。那么回到现在的问题,当语音交互从前沿技术变成基石技术以后,我们到底怎么进一步落地?我们的答案是往上游集成到芯片里面,往下游跟场景深度的绑定,这就是我想和大家分享的。