日前,百度在机器翻译技术上取得重大突破,发布了融合统计和深度学习方法的在线翻译系统。该系统借助计算机模拟的海量神经元,模仿人脑“理解语言,生成译文”,同时结合百度已有的统计机器翻译技术,使得机器翻译质量实现了质的飞跃。
此次百度发布的基于深度学习的在线翻译系统,实现了类似人脑的“理解语言,生成译文”的翻译方式。这种翻译方法最大的优势在于译文流畅,更加符合语法规范,容易理解。
据了解,百度利用自身得天独厚的庞大网页库资源,挖掘了海量的双语句对,作为系统的“学习教材”。由于深度神经网络结构极其复杂,整个学习过程非常耗时,需要持续很长时间。百度机器(机器行业发展研究报告)翻译团队经过技术攻坚,使得翻译系统的学习效率提高了十几倍,大大缩短了学习时间。
百度新发布的翻译系统应用了长短时记忆(LSTM, Long Short-Term Memory)的循环神经网络深度学习技术。该模型擅长对自然语言建模,把任意长度的句子转化为特定维度的浮点数向量,“记住”句子的全部语义。LSTM模型侧重于“记忆”那些比较重要的单词,让“记忆”保存比较长的时间,对于那些不太重要的单词,则会尽量早地“忘记”它,把宝贵的资源留给更重要的词。该模型很好地解决了自然语言句子向量化的难题,对利用计算机来处理自然语言来说具有非常重要的意义,使得计算机对语言的处理不再停留在简单的字面匹配层面,而是进一步深入到语义理解的层面。
一直以来,百度在机器翻译领域坚持技术创新,不断提升翻译质量和系统性能,致力于大规模互联网应用,为广大用户提供高质量、方便快捷的翻译服务。依托海量的互联网资源和自然语言处理技术的优势,百度研发出高质量翻译知识获取技术,突破了传统方法在翻译知识获取方面规模小、成本高的瓶颈;基于互联网大数据的多策略翻译模型,能够实时响应用户复杂多样的包括网络新词、科技文献、电子商务、古文、粤语等多领域、多文体的翻译需求;基于枢轴语言的翻译方法,使得资源有限的小语种翻译成为可能。
百度机器翻译团队一直秉承让所有人平等便捷地获取信息、找到所求的使命,致力于消除用户跨语言沟通交流的障碍。结合百度领先的图像识别、语音识别等技术,“百度翻译”APP为用户打造了一个全方位的随身翻译官。这位“翻译官”不仅可以帮助用户实时地与外国人进行面对面交流,根据用户所处场景,智能推送实用口语例句,还可以通过摄像头拍照对菜单、车站站牌等进行翻译,解决用户在海外学习和旅行时的语言难题。