首先,以前的翻譯系統有以下缺點:
基於短語翻譯的長句翻譯效果不佳
系統訓練和翻譯推理的成本很高。
難處理的生僻字
以上是明顯的不足,使得翻譯系統在實際應用中準確快速。下圖顯示了翻譯系統核心算法的框架:
谷歌的神經機器翻譯系統由壹個具有8個編碼器和8個解碼器的深度LSTM網絡組成,它還添加了註意力機制和殘差連接。為了提高並行性和減少訓練時間,我們的註意力機制將解碼器的底層連接到編碼器的頂層。為了加快最終的翻譯速度,我們在推理和計算過程中使用了低精度運算。為了提高對生僻字的處理,我們將字分成有限的壹組常見子字單元(字的組成部分),這些子字單元既是輸入又是輸出。該方法可以在字符分隔模型的靈活性和單詞分隔模型的有效性之間提供平衡,自然地處理稀有單詞的翻譯,並最終提高系統的整體準確性。我們的波束搜索技術使用長度歸壹化過程和覆蓋懲罰,這可以刺激生成可能覆蓋源句子中所有單詞的輸出句子。在WMT的14英語-法語和英語-德語基準測試中,GNMT取得了與當前最好結果相當的結果。與Google已經投產的基於短語的系統相比,通過單個簡單句集的對比評測,其翻譯錯誤平均降低了60%。
以上是論文的摘要翻譯。隨著深度學習在自然語言處理領域的應用,以及壹些新算法的引入,如批量歸壹化、各種LSTM變體和註意機制,實際應用性能得到提高。但谷歌仍然是壹家大公司,總是制造大新聞。