不久前,全球首个语音对语音翻译系统由Meta推出,实现了闽南语与英语的直接翻译。近期,这项技术背后的关键开发者,来自中国台湾的工程师陈鹏仁,通过网络直播,揭露了这项技术的研发历程。
陈鹏仁
陈鹏仁透露,选择闽南语作为首个翻译对象,是因为开发团队中有不少精通闽南语的人员,这使得他们能迅速验证翻译的准确性。为了研发出语音对语音的翻译技术,一个由50多名成员组成的团队汇聚了工程师、语言学者、社会学家和伦理学家等多学科专家,共同研究目标语言的深层结构和文化影响。比如,尽管美式英语和英式英语可以互相理解,但二者在词汇用法和发音上仍存在差异。
Meta打造的翻译系统
闽南语也存在类似情况,仅在台湾、福建沿海地区,以及马来西亚、新加坡等地,就存在着丰富的方言和口音差异,甚至闽南语的声调和音调也有七种之多。实际上,闽南语并没有统一的文字系统,而各地发音和用词的差异,使得这种以口语传播为主的语言,在转化为其他语言时更具挑战性。
陈鹏仁坦言,在开发过程中,他们发现将闽南语翻译成其他语言要比预想的复杂得多。Meta通过将闽南语的发音转化为数字数据,对这些数据进行分类和标注,并通过机器学习训练,让其他语言能够对应相应的翻译结果。对于无法直接翻译或难以准确表达意思的部分,系统会通过其他相近语言进行翻译,并将结果转换为目标语言。
然而,由于算法和学习资料的限制,目前这项技术还只能实现逐句翻译,还不能进行流畅的对话。但陈鹏仁相信,随着更多可用于训练的语料库资料的不断积累,以及算法技术的持续发展,未来将能实现更加即时和流畅的语音互译效果。