5月26日,由百度与中国计算机学会中文信息技术专委会、中国中文信息学会青工委联合举办的“2019自然语言处理前沿论坛”正式召开。本届论坛主题为“机器之‘读、写、说、译’—— 探寻NLP未来之路”。论坛围绕语义计算、自动问答、语言生成、人机对话及机器翻译五大议题,与学术界、工业界一线青年专家学者共同探讨NLP领域的最新技术进展、产业应用及发展趋势。
语义计算
语义计算方面,学者专家围绕词向量、稀疏化深度学习、表示学习等方向进行分享。
哈尔滨工业大学计算机科学与技术学院教授车万翔以“从‘静态’到‘动态’词向量”为题发表演讲。词向量的引入开启了深度学习应用于自然语言处理的时代。相比于静态词向量,动态词向量可以根据上下文,更好地处理一词多义现象,大幅提高自然语言处理多个任务的准确率。车万翔介绍了研究组基于动态词向量开展的相关工作,包括跨语言动态词向量[1]、few-shot learning、轻量级动态词向量模型等。关于未来的研究方向,车万翔认为可以挖掘更多的“伪数据”训练词向量模型,同时进一步降低模型的复杂度、提升模型速度。
北京大学信息科学技术学院研究员、长聘副教授孙栩的演讲主题为“Recent Studies on Sparse Deep Learning for Natural Language Processing”。 孙栩表示,当前深度学习多是密集型深度学习,需要更新所有神经元,这对能量消耗非常大。孙栩聚焦在稀疏化的深度学习NLP,提出一个简单有效的算法meProp[2]来简化训练及训练出的神经网络。在反向传递算法中,找出梯度中最重要的信息,仅用全梯度的一小部分子集来更新模型参数。实验表明,在多个任务上5%左右的稀疏化程度就可以达到很好的效果。此外,还提出了带记忆的meProp,具有更好的稳定性,达到更好的反向传递。在进一步的自然语言处理任务中,可以把模型裁剪为原来的1/10左右[3],而保持效果基本不变。
复旦大学计算机科学技术学院副教授邱锡鹏主要介绍了NLP中的表示学习进展。目前全连接自注意力模型在自然语言处理领域取得广泛成功。模型层面,他分析和对比了CNN、RNN、Transformer的基本原理和优缺点,还介绍了如何设计模型,以更好地融合局部和非局部的语义矩阵关系。邱锡鹏介绍了研究组最新提出的star-transformer模型[4],通过引入中间节点,大幅降低了模型复杂度。学习层面,通过预训练模型以及知识增强(比如ELMo、BERT、GPT、ERNIE等)提高模型泛化能力,在自然语言任务上获得了更好的性能。邱锡鹏认为,未来可以进一步探索如何更好地融合先验知识,构建更灵活、兼容性更强的预训练框架。
百度NLP主任研发架构师、语义计算技术负责人孙宇介绍了百度语义计算技术发展脉络及研发现状,并分享了该技术在百度各产品中的应用情况。据介绍,百度语义计算着力研究如何利用计算机对人类语言的语义进行表示、分析和计算,使机器具备语义理解能力。研发了包括语义表示ERNIE[5]、语义匹配SimNet、语义解析、多模态语义计算在内的多项领先语义技术。语义匹配方面,百度提出了一种基于增强学习的语义匹配框架,有效解决长文本匹配问题。在语义表示方面,今年3月,提出知识增强的语义表示模型 ERNIE,并发布了基于 PaddlePaddle 的开源代码与模型[6]。相较于BERT学习原始语言信号,ERNIE 直接对先验语义知识单元进行建模,增强了模型语义表示能力,在多项中文自然语言处理任务上取得最好的效果。
自动问答
中国科学院自动化研究所模式识别国家重点实验室副研究员刘康结合研究组近年的工作[7][8],介绍了文本阅读理解的研究进展与挑战。刘康首先介绍了阅读理解的主要任务、基本原理和数据集。在研究进展方面,介绍了基于深度学习的阅读理解模型框架、注意力机制、基于上下文的编码模型,以及预训练模型等。同时,他强调,阅读理解面临一系列的挑战,如合理构建数据集、如何提升模型推理能力、如何更好地使用外部知识等。在未来工作方面,刘康认为阅读理解经过了数据驱动模型的阶段,现在学术界开始逐步研究如何利用知识图谱提升机器阅读理解效果。在未来,如何更好地表示和应用知识,是非常值得研究的,也有很长的路要走。
#p#分页标题#e#百度NLP资深研发工程师、阅读理解与问答技术负责人刘璟介绍了百度机器阅读理解技术。百度的研究内容主要包含多文档阅读理解模型V-NET[9],以及知识表示和文本表示融合模型KT-NET[10]。其中,V-NET模型在MSMARCO数据集上三次获得第一。KT-NET目前是常识推理阅读理解数据集ReCoRD榜单上排名第一的模型。除了在技术方面不断投入,百度在去年对外发布了面向搜索场景的阅读理解数据集DuReader 2.0[11],数据规模包含30万问题、150万文档和66万人工标注的答案。百度、中国计算机学会和中文信息学会连续两年举办了基于DuReader数据集的机器阅读理解评测,推动了中文阅读理解技术的进步。
语言生成
自然语言生成技术研究如何让机器能像人一样使用自然语言进行表达和创作。机器表达、写作的能力既是衡量机器智能水平的重要标准,同时也具有广阔的应用前景。
北京大学计算机科学技术研究所教授万小军总结了自然语言生成技术的研究现状,并介绍了可控自然语言生成与跨模态语言生成等方面的研究进展。万小军分享了自然语言生成的发展趋势,包括受控语言生成[12]、文本保真度[13]、问题生成、生成带特定属性的文本,以及跨模态生成[14]等,同时也展示了多模态作诗系统。万小军还指出,自然语言生成目前面临两大挑战,首先是自动准确的生成文本质量评估,其次是基于少量平行数据的语言生成。如果这两大问题解决了,将极大地推动自然语言生成技术的发展。
百度NLP主任研发架构师、篇章理解与语言生成技术负责人肖欣延主要分享了百度在自然语言生成方面的技术进展,以及技术如何助力媒体进行智能创作。据介绍,百度研发了基于宏观规划、微观规划、表层实现的篇章生成算法,同时提出基于规划、信息选择、层次化等多种创新神经网络生成算法,在数据到文本生成、摘要生成、诗歌生成[15]等任务上取得良好效果。目前,百度已将语言生成技术应用于百家号内容创作、语音播报等。值得一提的是,百度还推出了智能写作平台[16],通过提供自动写作和辅助写作能力,提升内容创作的效率和质量,为智能创作领域提供更多可能。
人机对话
人机语音交互是一个发展趋势,对话将成为未来人与智能设备交互的主流形式。 “人机对话”专题探讨了对话的研究进展与应用。
清华大学计算机系副教授黄民烈发表了“对话系统中的强语义、弱语义和未来趋势”主题演讲。他表示,经典的对话系统大多采用了强语义方法,例如Frame、slot-filling等;现代神经网络方法则发展了弱语义方法,完全基于数据驱动和概率统计。前者在实际应用中表现良好,后者则存在严重的可控性问题。结合研究组工作,介绍了开放域对话系统面临的挑战[17],更好的融合知识[18]等。黄民烈表示,当下在强语义和弱语义方法间找一个结合点,希望能把数据驱动的模型和知识结合起来。
百度NLP主任研发架构师、UNIT技术负责人孙珂结合智能对话技术产业应用实践,探讨了产品架构、关键技术以及对现存问题的思考。围绕近期百度发布的智能对话系统训练与服务平台UNIT3.0[19],孙珂介绍了任务型、问答型、闲聊型三种在工业界较为成熟的对话系统。此外,为了适应全面丰富的NLP任务,方便更多开发者灵活插拔尝试多种网络结构,并且让应用最快速达到工业级效果,百度还开源了基于PaddlePaddle的工业级中文NLP工具与预训练模型集PaddleNLP[20]。
机器翻译
机器翻译研究如何利用计算机实现人类语言之间的自动翻译。基于深度学习的机器翻译方法利用神经网络直接实现语言之间的自动翻译,目前已取代传统的统计机器翻译,成为学术界和工业界新的主流方法。
清华大学计算机系长聘副教授刘洋介绍了神经网络机器翻译的基本原理、重要挑战以及最新研究进展。近年来,随着深度学习技术的发展,机器翻译的质量迈上了一个新的台阶。但是神经网络翻译模型仍然面临一系列重要挑战,例如:现有模型都是基于双语平行语料进行学习的,缺乏先验知识的融合;神经网络模型就像一个黑盒子,缺乏可解释性,难以调试和分析;模型对训练数据敏感、鲁棒性较差。针对以上挑战,刘洋结合研究组工作,介绍了他们在知识驱动[21]、可视化和可解释性[22]、鲁棒性神经网络机器翻译[23]方面的最新进展。谈及未来工作,刘洋认为,基于规则的翻译模型需要设计规则,统计机器翻译需要设计特征,神经网络机器翻译需要设计架构,未来是否能让机器自动设计神经网络架构,是一个非常有价值的研究方向。
#p#分页标题#e#机器同传近年来成为人工智能领域一个前沿研究方向。百度人工智能技术委员会主席何中军详细介绍了机器同传面临的主要技术挑战,并结合百度在机器同传上的一系列技术创新介绍了该方向的前沿进展。值得一提的是,何中军的全场报告采用了百度翻译最新研发的AI同传小程序进行端到端的语音翻译,只需要手机扫描会议二维码,就可以实时收听到翻译后的语音。新产品集成了百度在机器同传上的最新技术,如噪声容错、自动断句、可控时延[24]、篇章翻译[25]、端到端翻译[26]等。针对目前的挑战,何中军也指出机器同传未来的三个发展方向:模型方面,研发更加鲁棒的同传模型;数据方面,建设大规模、高质量同传数据;评价方面,研究和建立面向同传的评价体系和评价标准。
这场学术界与工业界携手带来的深度交流会干货颇多,让与会者收获满满。自然语言处理是人工智能皇冠上的明珠。当学术界、工业界更紧密地交流合作,越来越深入地理解自然语言、掌握知识,必将共同推动人工智能发挥更大的价值。
[1] Jiang Guo, Wanxiang Che, David Yarowsky, Haifeng Wang, Ting Liu. Cross-lingual Dependency Parsing Based on Distributed Representations. In Proceedings of the 53nd Annual Meeting of the Association for Computational Linguistics (ACL). 2015.07. Beijing, China
[2] Xu Sun, Xuancheng Ren, Shuming Ma, Houfeng Wang. meProp: Sparsified Back Propagation for Accelerated Deep Learning with Reduced Overfitting. In Proceedings of the 34th International Conference on Machine Learning. 2015. Sydney, Australia
[3] Xu Sun, Xuancheng Ren, Shuming Ma, Bingzhen Wei, Wei Li, Jingjing Xu, Houfeng Wang, Yi Zhang. Training Simplification and Model Simplification for Deep Learning: A Minimal Effort Back Propagation Method. IEEE Transactions on Knowledge and Data Engineering (TKDE) 2019
[4] Qipeng Guo, Xipeng Qiu, Pengfei Liu, Yunfan Shao, Xiangyang Xue, Zheng Zhang. Star-Transformer. https://arxiv.org/abs/1902.09113
[5] Yu Sun, Shuohuan Wang, Yukun Li, Shikun Feng, Xuyi Chen, Han Zhang, Xin Tian, Danxiang Zhu, Hao Tian, Hua Wu. ERNIE: Enhanced Representation through Knowledge Integration. https://arxiv.org/abs/1904.09223
[6] https://github.com/PaddlePaddle/LARK/tree/develop/ERNIE
[7] Shizhu He, Kang Liu and Weiting An, Learning to Align Question and Answer Utterances in Customer Service Conversation with Recurrent Pointer Networks, in Proceedings of AAAI 2019, Honolulu, Hawaii, USA, January 27 - February
[8] Cao Liu, Shizhu He, Kang Liu and Jun Zhao, Curriculum Learning for Natural Answer Generation, in Proceedings of IJCAI-ECAI 2018, Stockholm, Sweden, July 13-19.
[9]Yizhong Wang, Kai Liu, Jing Liu, Wei He, Yajuan Lyu, Hua Wu, Sujian Li and Haifeng Wang. Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Verification. In ACL-2018.
[10] An Yang, Quan Wang, Jing Liu, KAI LIU, Yajuan Lyu, Hua Wu, Qiaoqiao She, Sujian Li,Enhancing Pre-trained Language Representations with Rich Knowledge for Machine Reading Comprehension. ACL-2019
[11] ?dataset=dureader
[12] Zhiwei Yu and Jiwei Tan and Xiaojun Wan. A Neural Approach to Pun Generation. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. 2018. Melbourne, Australia.
[13] Liunian Li and Xiaojun Wan. Point Precisely: Towards Ensuring the Precision of Data in Generated Texts Using Delayed Copy Mechanism. COLING-2018.
[14] Lixin Liu, Xiaojun Wan and Zongming Guo. Images2Poem: Generating Chinese Poetry From Image Streams.2018. In ACM Multimedia Conference.
[15] Zhe Wang, Wei He, Hua Wu, Haiyang Wu, Wei Li, Haifeng Wang, Enhong Chen. 2016. Chinese poetry generation with planning based neural network. In COLING 2016
[16]
[17] Huang, Minlie, Xiaoyan Zhu, and Jianfeng Gao. "Challenges in Building Intelligent Open-domain Dialog Systems." arXiv preprint arXiv:1905.05709 (2019).
[18] Hao Zhou, Tom Young, Minlie Huang, Haizhou Zhao, Jingfang Xu, Xiaoyan Zhu. Commonsense Knowledge Aware Conversation Generation with Graph Attention. IJCAI-ECAI 2018
[19] https://ai.baidu.com/unit/home
[20] https://nlp.baidu.com/homepage/nlptools/
[21] Jiacheng Zhang, Yang Liu, Huanbo Luan, Jingfang Xu and Maosong Sun. 2017. Prior Knowledge Integration for Neural Machine Translation using Posterior Regularization. In Proceedings of ACL 2017, Vancouver, Canada, July
[22] Yanzhuo Ding, Yang Liu, Huanbo Luan and Maosong Sun. 2017. Visualizing and Understanding Neural Machine Translation. In Proceedings of ACL 2017, Vancouver, Canada, July.
#p#分页标题#e#[23] Yong Cheng, Zhaopeng Tu, Fandong Meng, Junjie Zhai, and Yang Liu. 2018. Towards Robust Neural Machine Translation. In Proceedings of ACL 2018, pages 1756-1766, Melbourne, Australia, July 15-20
[24] Mingbo Ma, Liang Huang, Hao Xiong, Kaibo Liu, Chuanqiang Zhang, Zhongjun He, Hairong Liu, Xing Li, Haifeng Wang. STACL: Simultaneous Translation with Integrated Anticipation. ACL-2019
[25] Hao Xiong, Zhongjun He, Hua Wu, Haifeng Wang. Modeling Coherence for Discourse Neural Machine Translation. AAAI-2019.
[26] Yuchen Liu, Hao Xiong, Zhongjun He, Jiajun Zhang, Hua Wu, Haifeng Wang, Chengqing Zong. End-to-End Speech Translation with Knowledge Distillation. https://arxiv.org/abs/1904.08075