找回密碼 或 安全提問
 註冊
|註冊|登錄

伊莉討論區

搜索
發表文章前請先閱讀相關版規尊貴會員無限下載附件安全提問(回答) 和 永久尊貴會員 事宜
mega神奇寶貝mgcosplay明日花mg無碼 ge
艶々夢木ricafc2櫻空校花凌辱

休閒聊天興趣交流學術文化旅遊交流飲食交流家庭事務PC GAMETV GAME
熱門線上其他線上感情感性寵物交流家族門派動漫交流貼圖分享BL/GL
音樂世界影視娛樂女性頻道潮流資訊BT下載區GB下載區下載分享短片
電腦資訊數碼產品手機交流交易廣場網站事務長篇小說體育運動時事經濟
上班一族博彩娛樂

[繁]藥師少女的獨語23

台北市中正高中學生

[繁]因為不是真正的夥

[繁/無修正]夢想成為

[繁]月光下的異世界之

[繁/無修正]夢想成為
電腦新資訊電腦軟體討論電腦軟體資訊分享電腦硬體討論電腦硬體資訊分享電腦萌化版電腦系統 OS 討論電腦程式設計
電腦設計技術交流圖像設計及交流各類下載工具教學寬頻上網討論
查看: 1897|回復: 7

[網路新資訊] 微軟宣布機器翻譯有新突破,中英新聞翻譯達人類水準[複製鏈接]

Rank: 2Rank: 2

帖子
544
積分
516 點
潛水值
30154 米
發表於 2018-3-15 03:47 PM|顯示全部樓層


14 日晚上,微軟亞洲研究院與雷德蒙德研究院的研究人員宣布,研發的機器翻譯系統在通用新聞報導測試集 newstest2017 的中─英測試集,達到可與人工翻譯媲美的水準;這是首個新聞報導的翻譯品質和準確率可比肩人工翻譯的翻譯系統。

newstest2017 測試集由產業界和學術界的團隊共同開發完成,並於 2017 年在 WMT17 大會發表。而新聞(news)測試集則是三類翻譯測試集中的一個,其他兩類為生物醫學(biomedical)和多模式(multimodal)。

四大技術

我們知道,同一個意思人類可用不同句子來表達,因此翻譯並沒有標準答案,即使是兩位專業的翻譯人員對完全相同的句子也會有略微不同的翻譯,且兩個人的翻譯都不錯。微軟亞洲研究院副院長、自然語言計算組負責人周明表示:「這也是為什麼機器翻譯比純粹的模式辨識任務複雜得多,人們可能用不同詞語來表達完全相同的意思,但未必能準確判斷哪個更好。」

這也是為什麼科研人員在機器翻譯攻堅了數十年,甚至曾經很多人都認為機器翻譯永遠不可能達到人類翻譯的水準。近兩年隨著引入深度神經網路,機器翻譯的表現有顯著提升,翻譯結果相較以往統計機器翻譯結果,更自然流暢。

據了解,這次工作中微軟亞洲研究院和雷德蒙德研究院的 3 個研究組透過多次交流合作,將他們的研究工作相結合,更進一步提高機器翻譯的品質,用到的技術包括對偶學習(Dual Learning)、推敲網路(Deliberation Networks)、聯合訓練(Joint Training)和一致性規範(Agreement Regularization)等。

▲ 對偶無監督學習框架。

對偶學習,即利用任務的對偶結構來學習。例如,在翻譯領域,我們關心從英文翻譯到中文,也同樣關心從中文翻譯回英文。由於有這樣的對偶結構,兩個任務可以互相提供反饋訊息,而這些反饋訊息可用來訓練深度學習模型。也就是說,即便沒有人為標註的數據,有了對偶結構也可以做深度學習。另一方面,兩個對偶任務可以互相充當對方的環境,這樣就不必與真實的環境互動,兩個對偶任務之間的互動就可以產生有效的反饋信號。因此,充分利用對偶結構,就有望解決深度學習和增強學習的瓶頸──訓練數據從哪裡來、與環境的互動怎麼持續進行等問題。

▲ 推敲網路的解碼過程。

推敲網路的「推敲」兩字可認為是來源於人類閱讀、寫文章以及做其他任務時候的一種行為方式,即任務完成之後,並不立即終止,而是會反覆推敲。微軟亞洲研究院機器學習組將這個過程沿用到機器學習中。推敲網路具有兩段解碼器,其中第一階段解碼器用於解碼生成原始序列,第二階段解碼器透過推敲的過程打磨和潤色原始語句。後者了解全局訊息,在機器翻譯看來,可基於第一階段生成的語句,產生更好的翻譯結果。

▲ 聯合訓練:從源語言到目標語言翻譯(Source to Target)P(y|x) 與從目標語言到源語言翻譯(Target to Source)P(x|y)。

聯合訓練可以認為是從源語言到目標語言翻譯(Source to Target)的學習,與從目標語言到源語言翻譯(Target to Source)的學習的結合。中英翻譯和英中翻譯都使用初始並行數據來訓練,在每次訓練的迭代過程中,中英翻譯系統將中文句子翻譯成英文句子,進而獲得新的句對,而該句對又可以反過來補充到英中翻譯系統的數據集。同理,這個過程也可以反向進行。這樣雙向融合不僅使兩個系統的訓練資料集大大增加,準確率也大幅提高。

▲ 一致性規範:從左到右 P(y|x,theta->) 和從右到左 P(y|x,theta<-)。

一致性規範,即翻譯結果可以從左到右按順序產生,也可以從右到左進行生成。該規範對從左到右和從右到左的翻譯結果進行約束。如果這兩個過程生成的翻譯結果一樣,一般而言比結果不一樣的翻譯更加可信。這個約束,應用於神經機器翻譯訓練過程,以鼓勵系統基於這兩個相反的過程生成一致的翻譯結果。

與人類比較

由於機器翻譯沒有「正確」的翻譯結果,為了與人類的翻譯水準比較,就必須嚴格定義什麼樣程度與人類翻譯水準相當。根據論文表述,定義有兩種:

  • 如果一個具備雙語能力的人判斷人類輸出的譯文品質與機器輸出的譯文品質相當,則機器達到人類水準。
  • 如果機器翻譯系統在測試集的譯文品質得分(人工評分)與人類譯文得分沒有顯著差別,則機器達到人類水準。

微軟選擇了第二種定義,因為這樣相對比較公平且有實際意義。

newstest2017 新聞報導測試集包括約 2,000 個句子,是由專業人員從線上報紙樣本翻譯而來。

微軟團隊對測試集進行了多輪評估,每次評估會隨機挑選數百個句子翻譯。

隨後,為了驗證微軟的機器翻譯是否達到人類翻譯水準,微軟從外部聘請一群雙語語言顧問,讓他們對微軟的翻譯結果和人工的翻譯進行比較和評分,結果如下:

# 表示集群的排名,Ave% 表示平均原始分數(範圍在 [0,100] 之間),Ave z 表示標準 z 分數。該表顯示了系統收集了至少 1,827 份評估結果。

從表中我們可以看出,微軟的系統(Combo-4, 5, 6)已經與人類翻譯(Reference-HT)無顯著差別,遠遠超過 Reference-PE(人類翻譯──基於機器翻譯後的編輯)以及 Reference-WMT。

任重而道遠

對於這項結果,微軟的研究人員表現得很自然。

▲ 微軟技術院士黃學東,負責微軟語音、自然語言和機器翻譯。

微軟技術院士黃學東告訴記者:

機器翻譯方面達到與人類相同的水準是所有人的夢想,我們沒有想到這麼快就能實現。消除語言障礙,幫助人們溝通更順暢,這非常有意義,值得我們多年來為此付出的努力。

微軟機器翻譯團隊研究經理 Arul Menezes 表示:

團隊想證明的是:當一種語言對(比如中─英)擁有較多的訓練數據,且測試集包含常見的大眾類新聞詞彙時,那麼在人工智慧技術的加持下,機器翻譯系統的表現可與人類媲美。

▲ 微軟亞洲研究院副院長、自然語言計算組負責人周明。

微軟亞洲研究院副院長、自然語言計算組負責人周明則表示任重而道遠:

WMT17 測試集的翻譯結果達到人類水準很鼓舞人心,但仍有很多挑戰需要我們解決,比如在即時的新聞報導測試系統等。

▲ 微軟亞洲研究院副院長、機器學習組負責人劉鐵岩。

微軟亞洲研究院副院長、機器學習組負責人劉鐵岩對技術的進展表示樂觀:

我們不知道哪一天機器翻譯系統才能在翻譯任何語言、任何類型的文本時,都能在『信、達、雅』等多個層面上達到專業翻譯人員的水準。我們可以預測的是,新技術的應用一定會讓機器翻譯的結果日臻完善。

據了解,此次的技術突破將很快應用到微軟的商用多語言翻譯系統產品,進而幫助其他語言或詞彙更複雜、更專業的文本達到更準確、更道地的翻譯。此外,這些新技術還可應用在機器翻譯之外的領域,催生更多人工智慧技術和應用突破。


心得: 又有人要失業了

[本帖是轉載帖]




...
瀏覽完整內容,請先 註冊登入會員
JOY CHEN
Best regards
成為伊莉的版主,你將獲得更高級和無限的權限。把你感興趣的版面一步步地發展和豐盛,那種滿足感等著你來嚐嚐喔。

使用道具檢舉

  中學生(1000/4000)

圓仔是神聖的

Rank: 3Rank: 3Rank: 3

帖子
3175
積分
1306 點
潛水值
46018 米
發表於 2018-3-15 10:00 PM|顯示全部樓層
我要的不多
Cortana的簡中翻成繁中就好了
都幾年了還不出

點評

tknwo 以目前的情況來看,香港的繁中搞不好會比台灣的繁中早出現  發表於 2018-3-18 05:19 PM

使用道具檢舉

luyenchingctv 該用戶已被刪除
發表於 2018-3-16 09:01 AM|顯示全部樓層
分享使你變得更實在,可以使其他人感到快樂,分享是我們的動力。今天就來分享你的資訊、圖片或檔案吧。
看來電腦取代人工翻譯的時代快要來臨了。
以後閱讀外語文件變容易了
回覆中加入附件並不會使你增加積分,請使用主題方式發佈附件。

使用道具檢舉

帖子
2315
積分
0 點
潛水值
36480 米
發表於 2018-3-17 01:09 AM|顯示全部樓層
成為伊莉的版主,你將獲得更高級和無限的權限。把你感興趣的版面一步步地發展和豐盛,那種滿足感等著你來嚐嚐喔。
用演算法讓機器翻譯學習,真的是一大突破,翻譯功能讓語言不再是隔閡。

使用道具檢舉

Rank: 2Rank: 2

帖子
586
積分
498 點
潛水值
47256 米
發表於 2018-3-17 09:23 AM|顯示全部樓層

使用道具檢舉

Rank: 1

帖子
166
積分
177 點
潛水值
10810 米
發表於 2018-3-17 01:41 PM|顯示全部樓層
若新密碼無法使用,可能是數據未更新。請使用舊密碼看看。
以後看其他的網站就方便多了...
對於英文看不大懂得人找尋資料更方便

使用道具檢舉

  大學生(4000/12000)

地發殺機,龍蛇起陸.

Rank: 4Rank: 4Rank: 4Rank: 4

帖子
13415
積分
8138 點
潛水值
149287 米
發表於 2018-3-22 04:15 PM|顯示全部樓層
成為伊莉的版主,你將獲得更高級和無限的權限。把你感興趣的版面一步步地發展和豐盛,那種滿足感等著你來嚐嚐喔。
我有個朋友去某家店實習,老闆給他一份資料,要他隔天翻譯給他.
他很聰明的找了機翻,結果被老闆罵的狗血淋頭.
若有安裝色情守門員,可用無界、自由門等軟件瀏覽伊莉。或使用以下網址瀏覽伊莉: http://www.eyny.com:81/index.php

使用道具檢舉

chjoo 該用戶已被刪除
發表於 2018-3-25 07:39 AM|顯示全部樓層
只是理論上離現實還很遠
若有安裝色情守門員,可用無界、自由門等軟件瀏覽伊莉。或使用以下網址瀏覽伊莉: http://www.eyny.com:81/index.php

使用道具檢舉

您需要登錄後才可以回帖 登錄 | 註冊

Powered by Discuz!

© Comsenz Inc.

重要聲明:本討論區是以即時上載留言的方式運作,對所有留言的真實性、完整性及立場等,不負任何法律責任。而一切留言之言論只代表留言者個人意見,並非本網站之立場,用戶不應信賴內容,並應自行判斷內容之真實性。於有關情形下,用戶應尋求專業意見(如涉及醫療、法律或投資等問題)。 由於本討論區受到「即時上載留言」運作方式所規限,故不能完全監察所有留言,若讀者發現有留言出現問題,請聯絡我們。有權刪除任何留言及拒絕任何人士上載留言,同時亦有不刪除留言的權利。切勿上傳和撰寫 侵犯版權(未經授權)、粗言穢語、誹謗、渲染色情暴力或人身攻擊的言論,敬請自律。本網站保留一切法律權利。
回頂部