2、電商機器翻譯技術(shù)體系的特點
在線上快速發(fā)展以及隨著集團開始全面國際化的背景下,電商機器翻譯平臺經(jīng)過多年的打磨逐漸形成自己的體系。
2.1高性能高并發(fā)服務(wù)能力
當(dāng)前在線機器翻譯系統(tǒng)提供SMT和NMT兩種翻譯模型,近兩年來由于硬件計算能力的大幅提升和深度機器學(xué)習(xí)的廣泛使用,在翻譯質(zhì)量上NMT翻譯質(zhì)量已經(jīng)遠超傳統(tǒng)的SMT模型,不過NMT在計算上的復(fù)雜使得NMT在速度上也遠慢于SMT。NMT解碼速度的提升是系統(tǒng)提供高吞吐,低延遲服務(wù)的關(guān)鍵。
2.1.1 分布式并行翻譯
當(dāng)前機翻平臺承接的業(yè)務(wù)相當(dāng)大的一部分翻譯需求為大本文和網(wǎng)頁,將這些請求按照對應(yīng)的格式進行結(jié)構(gòu)化的解析,然后通過分句模型把篇章級的請求分隔為句子級別,然后再分布式批量調(diào)用解碼服務(wù),這樣不僅能大幅提高分布式緩存的命中率,環(huán)節(jié)性能壓力同時也能大幅降低長文本的翻譯延遲。
2.1.2 Inference優(yōu)化
今年NMT已經(jīng)成了翻譯行業(yè)的一個標配,隨著這種技術(shù)的普及也給系統(tǒng)性能帶來了新的挑戰(zhàn)。這一年多基于GPU的NMT優(yōu)化極大的提高了系統(tǒng)的解碼速度,對系統(tǒng)的解碼速度有數(shù)倍的提升。
2.1.3 SMT和NMT混合解碼
根據(jù)實際業(yè)務(wù)場景,我們發(fā)現(xiàn)在處理商品頁的時候會出現(xiàn)大量短句,而且這些短句的NMT翻譯結(jié)果還不如SMT的翻譯結(jié)果,所以在調(diào)用decoder前通過一個策略模塊來決策調(diào)用SMT或者NMT,從而減少NMT的吞吐量,極大的減少了GPU資源的消耗同時也提升了翻譯質(zhì)量。
2.2 服務(wù)全球化以及高可用的保障
2.2.1 全球多機房部署
電商集團的涉及到的多語言翻譯業(yè)務(wù)需求遍布全球,為了更好的支持不同地域的翻譯需求同時能盡量減小由于地域帶來的訪問延遲,翻譯平臺實現(xiàn)了全球中國、俄羅斯、美國、新加坡多機房部署。 不僅實現(xiàn)了單地域的多機房容災(zāi)同時還支持跨地域全球容災(zāi)。
2.2.2 多場景差異化支持
電商翻譯接入的場景比較多情況也比較復(fù)雜,不同的應(yīng)用場景對系統(tǒng)的要求也不盡相同,所以針對不同的應(yīng)用場景實現(xiàn)了同步和異步兩套處理機制,架構(gòu)上實現(xiàn)兩種不同的對外接口,但是機翻引擎保持同一套代碼同一套服務(wù),
同步:
接收到請求后實時的調(diào)用后端引擎,能夠做到實時返回,用于對rt要求高的場景,另外通過多級緩存進一步的提高吞吐量和降低rt。
異步:
大文本商品翻譯和離線翻譯場景。通過metaq消息隊列實現(xiàn)異步化,通過不同的消息隊列來對應(yīng)用設(shè)置不同的優(yōu)先級,使用信號量來控制不同隊列消費的線程數(shù),動態(tài)的解決翻譯熱點時消息堆積問題。
2.3 Transformer 新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
電商機器翻譯基于業(yè)界最新的Transformer結(jié)構(gòu)進行了網(wǎng)絡(luò)結(jié)構(gòu)的改進和對詞語位置信息的充分利用,全面改進了機器翻譯的性能。
2.4 多模態(tài)服務(wù)能力
現(xiàn)階段的機器翻譯已不僅僅局限于文字到文字的翻譯, 多模態(tài)的翻譯已成為發(fā)展趨勢。將多模態(tài)的信息如語音、圖像、類目等通過神經(jīng)網(wǎng)絡(luò)進行融合,并利用Attention機制將信息加以聚焦,可以獲得良好的效果。電商翻譯實時語音翻譯demo在云棲大會、CES展會上都有亮眼的表現(xiàn)。