上海專(zhuān)業(yè)翻譯公司
立即在線(xiàn)咨詢(xún)
歡迎資深譯員加項目QQ
JS導航效果
|
|
|
無(wú)監督機器翻譯:一種提供快速準確多語(yǔ)種翻譯的新嘗試
發(fā)起人:eging3  回復數:2  瀏覽數:11036  最后更新:2022/9/28 19:29:36 by nihaota

發(fā)表新帖  帖子排序:
2019/6/27 10:35:52
eging3





角  色:管理員
發(fā) 帖 數:1914
注冊時(shí)間:2015/7/22
無(wú)監督機器翻譯:一種提供快速準確多語(yǔ)種翻譯的新嘗試
無(wú)監督機器翻譯:一種提供快速準確多語(yǔ)種翻譯的新嘗試Facebook研究人員提出一種“不需要任何翻譯資源的MT模型”,也即“無(wú)監督機器翻譯”(unsupervised machine translation),用機器翻譯常用的基準BLEU衡量,Facebook的新方法實(shí)現了超過(guò)10分的改善。對于機器翻譯而言,這是一個(gè)非常重要的發(fā)現,特別是小語(yǔ)種而言,有些訓練數據很少,有些甚至連訓練數據都沒(méi)有。而Facebook提出的這種無(wú)監督機器翻譯,能夠初步解決這一問(wèn)題,比如在烏爾都語(yǔ)(注釋?zhuān)喊突固沟膰Z(yǔ),屬于印歐語(yǔ)系印度-伊朗語(yǔ)族的印度-雅利安語(yǔ)支;是全球使用人數排名第20的語(yǔ)言)和英語(yǔ)之間進(jìn)行自動(dòng)翻譯——不再需要任何翻譯好的語(yǔ)言對。無(wú)監督機器翻譯的方法,首先是讓系統學(xué)習雙語(yǔ)詞典,將一個(gè)詞與其他語(yǔ)言對應的多種翻譯聯(lián)系起來(lái)。讓系統首先為每種語(yǔ)言中的每個(gè)單詞學(xué)習詞嵌入,也即單詞的向量表示。然后,系統會(huì )訓練詞嵌入,根據其上下文(例如,給定單詞前后的各5個(gè)單詞)來(lái)預測給定單詞周?chē)膯卧~。例如,與“kitty”(小貓)這個(gè)詞距離最近的是“cat”(貓),并且“kitty”這個(gè)詞與“animal”(動(dòng)物)之間的距離要遠遠小于它與“rocket”(火箭)這個(gè)詞的距離。換句話(huà)說(shuō),“kitty”很少出現在有“rocket”的上下文里。此外,不同語(yǔ)言中意思相近的詞匯具有相似的鄰域結構,因為世界各地的人們生活在相同的物理環(huán)境中。例如,英語(yǔ)中“cat”和“furry”(毛茸茸)之間的關(guān)系,類(lèi)似于它們在西班牙語(yǔ)中對應的翻譯“gato”和“peludo”,因為這些單詞的出現頻率及其上下文是非常相似的。鑒于這些相似之處,Facebook的研究人員提出了一種方法,讓系統通過(guò)對抗訓練等方法,學(xué)習將一種語(yǔ)言的詞嵌入結構進(jìn)行旋轉,從而匹配另一種語(yǔ)言的詞嵌入結構。有了這些信息以后,他們就可以推斷出一個(gè)相當準確的雙語(yǔ)詞典,無(wú)需任何已經(jīng)翻譯好的語(yǔ)句,并且基本上可以做到逐字翻譯。當逐字翻譯實(shí)現以后,接下來(lái)就是詞組乃至句子的翻譯了。當然,逐字翻譯的結果是無(wú)法直接用在句子翻譯上的。于是,Facebook的研究人員又使用了一種方法,他們訓練了一個(gè)單語(yǔ)種語(yǔ)言模型,對逐字翻譯系統給出的結果打分,從而盡可能排除不符合語(yǔ)法規則或有語(yǔ)病的句子。這個(gè)單語(yǔ)模型比較好獲得,只要有小語(yǔ)種(比如烏爾都語(yǔ))的大量單語(yǔ)數據集就可以。英語(yǔ)的單語(yǔ)模型則更好構建了。通過(guò)使用單語(yǔ)模型對逐字翻譯模型進(jìn)行優(yōu)化,就得到了一個(gè)比較原始的機器翻譯系統。接下來(lái),Facebook研究人員再將這些機器翻譯所得到的句子(從烏爾都語(yǔ)到英語(yǔ)的翻譯)作為ground truth,用于訓練從英語(yǔ)到烏爾都語(yǔ)的機器翻譯。但是由于第一個(gè)系統(從烏爾都語(yǔ)到英語(yǔ)的原始機器翻譯系統)的翻譯錯誤,作為訓練數據輸入的英語(yǔ)句子質(zhì)量并不高,因此第二個(gè)反向翻譯系統輸出的烏爾都語(yǔ)翻譯效果可想而知。不過(guò),有了剛才訓練好的那個(gè)烏爾都語(yǔ)單語(yǔ)模型,就可以用它來(lái)對第二個(gè)反向翻譯系統輸出的烏爾都語(yǔ)譯文進(jìn)行校正,從而不斷優(yōu)化、迭代,逐漸完善第二個(gè)反向翻譯系統。在Facebook的這項工作中,他們確定了三個(gè)步驟——詞到詞的翻譯(word-by-word initialization)、語(yǔ)言建模和反向翻譯——作為無(wú)監督機器翻譯的重要原則。有了這些原則后,就可以推導出各種模型。Facebook研究人員用其構建了兩種不同的模型,以解決無(wú)監督機器翻譯的目標。第一個(gè)是無(wú)監督神經(jīng)模型,其結果比逐字翻譯更流暢,但卻沒(méi)有產(chǎn)生研究人員想要的質(zhì)量翻譯。但是,這個(gè)無(wú)監督神經(jīng)模型的翻譯結果可以用作反向翻譯的訓練數據。第二個(gè),Facebook的研究人員上述原則應用于基于經(jīng)典計數統計方法的另一個(gè)機器翻譯模型,叫做“基于短語(yǔ)的機器翻譯”(phrase-based MT)。最后,他們將兩種模型結合起來(lái),得到一個(gè)既流暢又準確翻譯的模型。其方法是,從一個(gè)訓練好的神經(jīng)模型開(kāi)始,用基于短語(yǔ)的模型生成的反向翻譯句子,對這個(gè)神經(jīng)模型進(jìn)行訓練。從短期來(lái)看,這肯定有助于我們翻譯更多的語(yǔ)言并提高訓練數據少的語(yǔ)言的翻譯質(zhì)量。但是,從這種新方法和基本原則中獲得的知識,可以遠遠超出機器翻譯的范疇。這種新方法為更快、更準確地翻譯更多的語(yǔ)言打開(kāi)了一扇門(mén)。同時(shí),Facebook的研究人員認為,這項研究有可能應用于任何領(lǐng)域的無(wú)監督學(xué)習。








專(zhuān)業(yè)翻譯公司 http://www.ubikui.com

用戶(hù)在線(xiàn)信息
當前查看此主題的會(huì )員: 1 人。其中注冊用戶(hù) 0 人,訪(fǎng)客 1 人。


譯境翻譯公司BBS|上海翻譯論壇|同聲傳譯交流論壇|自由譯員社區|外籍母語(yǔ)翻譯交流|尋找上海翻譯工作|兼職翻譯招聘|筆譯口譯項目發(fā)布| 上海翻譯資源| 小語(yǔ)種翻譯資源| 證件翻譯資源| 留學(xué)文書(shū)翻譯模板| 翻譯語(yǔ)料術(shù)語(yǔ)庫| CAT翻譯軟件|Trados技術(shù)交流 英語(yǔ)高級翻譯群 德語(yǔ)高級翻譯群 法語(yǔ)高級翻譯群 俄語(yǔ)高級翻譯交流群 日語(yǔ)高級翻譯交流 阿拉伯語(yǔ)高級翻譯群 翻譯公司網(wǎng)絡(luò )營(yíng)銷(xiāo)合作
亚洲日韩久热中文字幕_午夜男女爽爽爽真人视频_东京热一区二区_免费日本高清中文在线