文|了一下按响了门铃
在圣经和旧约中,有这样一个故事:
巴别塔的故事为世界上不同的语言和种族提供了解释。虽然互联网的出现让“地球村”的梦想在地理空上不再遥不可及,但语言理解和文化背景成为全球交流的最大障碍,让梦想变得骨瘦如柴。
好在各大搜索引擎都推出了AI翻译。
AI翻译在这条轨道上,巨人绕不过“能”
AI翻译作为一种垂直搜索产品,因其明确的应用场景而引起了巨头们的关注。
2016年,GNMT技术全面部署在谷歌的翻译系统中。随后,谷歌声称其AI翻译的翻译质量误差降低了55%-85%,该技术被广泛应用于网页翻译和手机应用。
在国内,当时百度已经研究了适用的SMT技术,但得知NMT的横空诞生后,迅速改变方向发展NMT技术,于是BNMT被应用到百度翻译。虽然一开始百度的翻译速度慢,但是百度当时的反应也证明了NMT的价值。
搜狗、阿里、腾讯等公司也部署了NMT领域,推出了各种基于神经网络的在线翻译和手机应用,在智能翻译领域不断努力。自从在国内搜索引擎行业占据二哥位置后,360 Search也专注于与AI领域其他巨头的角力,为了配合去年推出的360英文搜索,推出了基于NMT的360翻译。
但我们会发现,无论是Google还是BAT,它的智能翻译永远不能声称取代人工翻译,因为翻译还必须考虑用户的情感和文化背景。2016年至今的两年间,海量语料库的深度学习逐渐成为AI发展的必修课,也成为了巨头们在安排AI翻译时无法回避的一道坎。
正是在这样的背景下,360翻译深度学习调度平台在深度技术和语料库挖掘方面做出了巨大的努力。360的英文搜索除了充分发挥360搜索在新闻和信息方面的优势外,还与微软旗下的搜索引擎Bing进行技术合作,使得其AI翻译坐在大量中英文网络语料库的后面,在理解语境上更加地道。此外,360翻译采用独家开发的360NMT技术。
但这还只是开始。
搜索平台推出NMT,出于什么目的?
无论是国外的谷歌还是国内的搜索巨头百度、搜狗、360等。,将NMT作为人工智能翻译的标准,翻译侧重于汉英翻译,这是一个非常有趣的现象。AI翻译真的是一块肥肉吗?谁也不想落后。
据统计,世界上有73个国家,超过10亿人使用英语作为官方语言,而汉语是世界上人口最多的语言。因此,汉英翻译的用户群市场本身就能引起巨头们足够的重视。你为什么要强迫NMT?这取决于AI翻译人类语言的方式,包括三种:一是基于规则的机器翻译方法;二、基于案例的机器翻译方法;第三,基于统计的翻译方法。SMT和NMT属于第三类,它们从语料库中自动学习翻译模型,结合大数据进行评分,输出翻译结果。
然而,表面贴装技术和NMT之间有很大的差距。SMT采用通过平行语料库进行统计分析的模式,翻译的准确性与语料库的丰富度正相关。然而,也存在一些缺点,如翻译结果过于分散,片面直言不讳,语法和语义混乱。NMT模仿人类神经网络模型,以一个句子为基本处理单位,具有翻译过程中语感更好的优势,可以降低SMT翻译在“词法、句法、语序”等方面出错的概率。因此,NMT可以在技术上有效弥补表面贴装技术的缺陷。随着语料库的不断超重,AI翻译的准确率也高了很多。
AI翻译引入NMT技术能否准确识别“语境”?
在一次国际会议上,搜狗同传声称其神经网络机器翻译技术已经到了临界点,正在大规模商业化。然而,搜狗的同声传译在国际会议上一直存在争议,效果并不理想。即使是在正式场合能应付自如的搜狗,在非正式场合会是什么样的情况?英汉交际往往采取口语化的形式,理解“语境”要比理解“语法、词汇”困难得多。我们将在下面讨论几组陈述。
第一组:跪下。你看,最近这个常见网络用语的翻译平台水平
谷歌:献上我的膝盖。
表达我的钦佩之情。
百度:献上我的膝盖。
搜狗:膝盖给我。
测试结果显示,搜狗、百度和谷歌都倾向于翻译单词的表层含义,但未能结合具体的文化背景,而360则以更真实的方式解释网络术语。
第二组:诗歌,选自杜甫《登高》。因为他的诗主要是由很多意象组成的,看翻译能不能反馈这种情感。
《登高》精选原创文摘;
风又快又高,猿猴们非常悲伤地叫着,鸟儿们在白沙的白沙上盘旋。
英文翻译:
有意思的是,英文翻译成中文,没有平台可以还原。在诗歌的汉英翻译中,360可以结合“语境”来处理诗歌中的有意因素,搜狗翻译表达了“悲伤”的情感,而百度翻译和谷歌翻译是直译,破坏了诗歌的美。
第三组:新闻,选自红网。语言简洁正式,但是涉及到的元素很多,这就对语法要求更高了。
原文:据长沙市住房和城乡建设委员会网站显示,2018年5月23日,长沙两个项目获得预售证书,均位于雨花区,分别是五矿万晶蓝山和创源时代。
翻译:
在同一则新闻中,有四种不同的翻译。同一句话,每个家庭强调的点不一样,比如第一句的“长沙市住房和城乡建设委员会”。360的翻译结果更专业,符合平时的表达方式。“长沙市”只是作为一个补充词出现,而在搜狗、百度和谷歌的翻译中,“长沙市”是作为一个刻板的地名出现的。特别值得注意的是,根据上下文,“五矿万晶蓝山”和“创元时代”是楼盘名称,应按汉语拼音直译。只有360认可这一点,搜狗、百度、谷歌都在纠结“我的”、“蓝山”、“创远”、“时代”这几个字。
从这三组中我们可以发现,360更倾向于基于“语境”逻辑的分词。虽然有些不到位,诗歌等复杂的情感表述无法准确传达,但在“流行语”上有明显优势;谷歌和百度基本上都是基于短语断句。所以翻译也是逐字逐句,特别是对于古诗的理解,Google更是心酸。
所以AI翻译的问题主要体现在三个方面:一是机器翻译难以处理语言规则不一致的口语;二是AI翻译结合文化语境难以理解,无法分析深层情感;第三,对于较长的段落和复杂的语境,往往会出现许多语法问题和较高的句子错误率。
AI翻译要“地道”,技术不是关键
翻译界的资深人士何曾说:“机器翻译一直被认为是人工智能领域最困难的课题之一。此外,语言背后的多元文化和复杂的社会属性使得语言规则不可能得到规范。但是,中国有句老话:勤能补拙。对于AI翻译来说,最难的不是技术,而是“语境”理解,AI翻译能力的高低就体现在这里,体现了平台馈语料库的资源地位。AI翻译是否“地道”取决于以下几点。
1、培训数据库内容的整体质量
这影响翻译的准确性,取决于信息资源的整合能力。BAT,360,搜狗,有道等。都注重内容生态建设。随着腾讯微信门户在搜狗搜索,360已经抢占了安全领域的数据源。然而,它不可能是一个完全开放的系统,没有人能够整合整个互联网的资源。不同平台的训练数据库各有侧重,AI翻译特点也不同。比如360翻译侧重于地道的口语和流行语,百度翻译则大而全。
2.中外开放、平等的数据交换可以加强人工智能的深度学习
竞争产品之间的国内合作相对困难,但中外数据交换是最好的补充。所以百度推出了英文搜索产品,而360则与微软必应进行了技术合作。另外,用国界互相翻译就变得更有意义了。因此,中外数据合作可能是对文化背景数据积累的一个很好的补充,也是拓展深度学习语料库最直接的方式。
3.需要准备大量的网络语言和口语材料
除了诗歌深厚的文化底蕴,网络语言和口语是最接近一个地区文化的语言形式。如今,搜索引擎正在从被动搜索向基于用户兴趣的主动内容推荐引擎转变,这是建立口语语料库训练模型的一个很好的尝试。
虽然AI翻译要花很长时间才能准确识别“语境”,但技术一直在进步,360翻译可以开始揣摩句子背后的情感和思想,这是日常交流的良好开端。也许,我们会离“地球村”的梦想更进一步!
曾令明
1钛媒、品图商评等2016年度十大作者;
2老虎奖评委;
3AI新媒体《智能相对论》创始人;
4作家:等待畅销书作家;
5《商业》《商业评论》《销售与营销》等近十位杂志写手;
6钛媒、界面、虎嗅等近80位专栏作家;
“大脑艺术家”概念的支持者现在已经演变成“自媒体”,成为一个行业。
8现在是《今日头条问答签约作者》和多家科技情报公司的传播顾问;