号称最强神经机器翻译 为何还是差强人意?

【2018-01-16】

  被称为最强的神经机器翻译还是不尽人意?

  14到16年,机器翻译领域可谓天翻地覆。这期间发生的是基于神经网络的机器翻译,开始全面超越基于统计模型的统计机器翻译(SMT),并迅速成为在线翻译系统的主流标准。这场革命之后,机器翻译完全进入了神经机器翻译,这是NWT神经机器翻译的时代。许多人欢喜。回顾去年,谷歌机器翻译后,Google在中英翻译系统上部署了GNWT。当时互联网上广为流传的消息是:“作为翻译,当我看到这个消息的时候,我了解到18世纪的纺织工人看到了蒸汽机的忧虑和恐惧。你感到深深的绝望吗?让我们平静一下我们的小情绪,一年之后,市场上的NWT系统越来越多,虽然翻译质量有所提高,但与引用中所描述的“质变”水平相去甚远,这是什么因此,我们选择了最具代表性的Google GNWT和屡获殊荣的搜狗网搜狗,来探索神经网络机器翻译和空间进化的真实水平。神经机器翻译的攻击在开始非常有趣的实验之前(其实并不有趣),首先简单介绍一下神经机器翻译的原理,在哪里强,哪些内部类别,为什么几年成为主流标准?在人工智能命题下建立一个基于神经网络的机器翻译系统是一个想法这是早在1949年就提出来的,但是很久以后就没有工程基础,效率低下,没有成为主流。根据不同语言的语法顺序,被称为规则机器翻译(RBMT)。这种机器翻译的应用范围很窄,只能算是早期阶段的技术。统计学上升后,统计机器翻译(SMT)成为主流。该技术基于平行语料进行统计分析,建立翻译模型。之所以早期将Google翻译成公众眼球,是因为他们积累了大量的语料数据,可以让翻译系统在语言中找到相应的因素来产生翻译结果。 SMT时代的代表。这样做的好处在于翻译效率很高,但缺点是翻译结果太分散,无法产生正确的语法和流畅的语言顺序。用神经网络来机器翻译,首先是要解决难以形成语句的问题,必须依靠人工数据。 NMT的基本思想是将每个句子作为一个独立的神经元来分解基于短语的翻译障碍。翻译系统可以监督和训练,而不必完全依靠固定的数据。这可以在专业领域获得更好的翻译结果和稀缺的信息。与SMT相比,NMT可以更好地理解语言,减少以前机器翻译的形态,句法和词序错误。而且这个项目比较有效率。从2014年开始,使用循环神经网络(RNN)对语音向量进行编码和解码并使用长期和短期记忆网络(LSTM)增强长句翻译能力的NMT算法已经开始在所谓的“运行点“。然后两人之间的差距开始拉开。到2016年,谷歌的GNWT开始全面部署到谷歌翻译,今年Facebook推出了基于卷积神经网络(CNN)的翻译模型,据说效率更高。两个月前,Google基于注意力的翻译模式,目前是机器翻译神经网络的最佳模式,除了这些美国巨头之外,中国的搜狗,百度,阿里,腾讯等公司也部署了NWT。其中搜狗搜狗网上月在第二届MT大会(WMT 2017)上获得“中英对照”称号。在这一点上,应该说神经网络机器翻译,这种刚刚设计的技术已经成为在线翻译领域的完全标准。问题来了,这个技术真的很神奇传奇吗?实际上,对于不同的在线翻译系统,有很多在线测试系统。其中一些非常专业,我们不妨在这篇文章中找到参考。这里还是要进行严谨的后续推理测试,并且限于空间,更多的类似的翻译测试没有显示,下面是一些更具代表性的例子。考虑到一致性的要求,在线翻译准确的句子,其应用场景不超过两个:一是以海外旅游,购物,实时交流为代表的现场;其次,专业内容翻译的垂直领域(毕竟),所以这里有一些选择的旅行语言和专业论文来测试搜狗网站和GNMT的翻译实力。此外,搜狗在今年6月份发布了搜狗网站独一无二的秘籍,当时搜狗发布了翻译古代诗歌的翻译APP,于是我们又用古诗词和古典文字来折磨两个“小” “首先是看到一种基本的旅游语言:英语到中文:如果我等待,我有什么可能获得一个座位?Google答案:如果我等待,我可以得到一个座位的可能性吗?搜狗答案:如果我等一下,我有可能坐的是多少?中文:如果我等一下,我多久可以坐一次座位?Google答案:如果我等一等,坐在座位上的机会是多少?可以看出,中文翻译的顺序一般是正确的,搜狗对中文语法的理解更为准确,但对翻译没有太多的乐观看法,两个系统都没有显示任何理解语境的机会我们在这篇短文中找到一些长句译文:在二十一世纪开始的时候谈论互文性似乎是不合时宜的,自从这个名词第一次出现在茱莉亚·克里斯蒂娃(Julia Kristeva)把巴赫金引入西方世界以来已近四十年了。谷歌的答案:在21世纪初讨论互文性似乎已经过时了,自从朱莉娅·克里斯蒂娃(Julia Kristeva)将巴赫金引入西方世界已有40年。搜狗答案:自二十世纪初开始谈论互文性以来,似乎离谱了近四十年来,第一次从巴基斯坦人朱莉娅•克里斯蒂娃(Julia kristeva)传入西方世界。自从40年前Julia Kristeva首先向西方介绍互文性概念时,介绍了巴赫金的观点,21世纪初期关于“互文性”的讨论已经有点过时了。四十年前第一次引入巴赫金思想的互文性,21世纪初互文性的讨论已经有点过时了。搜狗答案:由于朱莉娅克里斯蒂向西方介绍了互文性的概念,四十年前的时代,讨论二十一世纪初期的互文性已经成为一个时代错误,从长句的翻译来看,中英两国语序的调整仍然是一个大问题,而造成的意义差异按照字词顺序会影响整个翻译结果。另外,中文翻译的英文,Google表现的稍好一些,搜狗有一个严重的泄漏。值得肯定的是,这两个名词更准确的翻译,但名字银行显然不够大。我们有一点有趣,杜甫的“石壕官员:暮暮石铸沟村,有官员赶夜。老人在墙上,女人出去看看。谁叫什么愤怒!女人哭什么苦!谷歌翻译:暮光投石沟村,有官员赶夜。老人走过去,老妇人出去看望。村里有官员和夜间捕手。老人走过去,老太太出去看望。卫兵大声疾呼老太太哭得很伤心。巴顿·沃森对比较权威的认可:晚上我在石壕村上架;那天晚上,一位官员围坐在旅馆里的老人把墙上的人推倒在地跑掉了;老太太来打开大门,官员,他多么激烈地大喊!可以看出,谷歌对古代诗歌的理解确实不如搜狗,比如一个女人谁苦苦搜狗翻译的“老女人”应该是对应的以前的文章。又如“晚安人”变成了“赶夜”似乎不如搜狗贴边。当然,双方的“围墙走”这样的表情并没有准确的理解,其他搜狗完全泄露了石豪村。另一句话是最“辱骂”的文心雕龙神思想:因此,思想是美好的,上帝和身体的游览。上帝抽象化,雄心勃勃。首先要提到宇文索安翻译,然后再看机器翻译会给出什么答案:当思想的基本原理最多是微妙的,精神徘徊与事物。精神停留在乳房上;意图和气来控制螺栓到门口。谷歌翻译:所以想想美妙,上帝和游览。神的胸膛,和它的关键的野心。所以想着善良,上帝和这个问题在游泳。上帝生活在心中,而雄心是关键。当然,这个问题纯粹是娱乐,对男人来说太难了。但是,仍然可以看出,在翻译过程中,根据词语的表面意义,直翻的现象比较严重,应该在算法的祝福下强行形成句子。在这种翻译模式下,翻阅的现象将非常严重。哪里有问题?从上面的实验中,似乎可以得出这样的结论:神经网络的机器翻译确实有很大的作用,特别是在短句的翻译中。但是,翻译他们的立场还是很安全的。无论是将英文翻译成中文还是将英文翻译成中文,现有的机器翻译仍然显示出它无法翻译复杂的长句,行话,诗歌和散文。首先,中英文的对应,即机器翻译的对齐,还没有得到妥善解决。只有从我们进行的测试来看,搜狗在英汉翻译中似乎是合适的,而Google在中英文翻译上略胜一筹。但无论如何,统计机器翻译的基本对应模式总体上保持不变,难以根据实际的预期进行调整。另一个非常突出的问题是神经网络翻译应该根据算法生成自己的句子内容。这是因为算法把句子当作独立的序列来处理,所以不管短语和单词的正确性如何,都必须生成句子。以“Shihuli官员”和“文心雕龙”为例,翻译导致了在错词翻译下出现更多错误内容的翻译,有的甚至有些滑稽。而在复杂的翻译中,用户可能难以推回到错误的地步。而且,语言地位与动词之间的关系往往是错误的,似乎也有很多的搜狗翻译缺失的情况。当然,以上只是基于我们实验得到的特点,不一定全面准确。然而,这似乎确实表明,神经机器翻译并不是那么古老,甚至在技术迭代之后还出现了一些新的问题。找钥匙,抓钥匙所以主流的机器翻译系统,只能做到这一步?答案应该是消极的。一方面,我们可以看到,完善神经网络机器翻译的方法正在快速增长。这项技术的燃料是足够的。另一方面,这种技术在工程上是高效的。谷歌和搜狗Facebook,微软等机器翻译玩家对于最新的学术成果都将进行非常有效的配置。所以目前,神经网络机器翻译很长一段时间会处于一个黄金地段。并可能继续打破一小段时间。针对上述分析的问题,可以采用一些解决方案作为更有效的补充,也可能成为神经网络翻译企业的下一个关键战场。这里要强调的是,我们并不想预测网络算法和技术的提高(当然不能预测),这里是探索其他方法来改进神经网络的机器翻译方法,也许其中之一就是要推广进一步翻译失业“关键”:一是NMT以外的人工智能技术的引入:巧合的是,近两年来对机器翻译的技术翻译往往来自其他领域的人工智能。比如注意模式,就是来自Deepmind在机器视觉领域的技术思路。主动介绍其他方面的算法和模型,也许在翻译领域有着神奇的效果。其次,建立机器学习用户数据库来激发互动:在机器学习的原理中,纠错往往是错误学习的最佳途径,而企业完成翻译错误纠正行为显然是困难的。调动用户主动纠正翻译结果,并建立数据库,或许是一个非常方便的方法。当然机器翻译平台现在有纠错功能,但用户参与和参与的积极性是一个问题;第三,要从弱质量培训教材中吸取教训:目前的NMT系统归根结底是一个有监督的学习过程,翻译机制的许多所谓“莫名其妙”的翻译结果是无法优化的,尝试一些深层次的学习架构来使翻译系统自我优化,或许是一个解决方案;第四,垂直领域语料库数据抽取系统:解决特定领域的专业知识,甚至包括经典的中英文翻译(当然包括英文诗歌和文学文本),其实没有什么特别的办法,有强大的竖场数据库很难实力,当然数据不错搜索模式将会以更少的成本做更多的事情,搜狗以前投资于UHT国际,在语言的垂直领域建立大数据,也许是为了这个目的。网络机器学习,还是标准的新生事物。行业愿意选择它,只是因为它比以前更加优化和更有潜力。绝不是一旦被枪杀就会杀死众生,达到替代人的目的。翻译仍然是一项非常安全的工作,而且大部分工作实际上 - 至少在今天。这是十亿国家专栏作家的文章,如果您想转载,请签署内容转载协议,请联系run@ebrun.com