• <noscript id="yywya"><kbd id="yywya"></kbd></noscript>
  • 發布時間:2017-12-04 11:51 原文鏈接: 人工智能“自學”做翻譯

      得益于神經網絡——從人腦獲得靈感的計算機算式——的發展,自動化的語言翻譯已經存在了相當長一段時間。但訓練這些網絡需要海量數據:數以千萬計的逐句翻譯,以展示人類如何做這項工作。現在,兩篇新論文表明神經網絡可以在無需平行文本的情況下學習翻譯——這一令人震驚的進展或讓人們獲得許多不同語言的文獻記錄。

     計算機很快或能翻譯更多語言

      “想象一下,你給一個人很多中文書籍和阿拉伯書籍,而且它們沒有任何重疊性,然后一個人需要學習將其從中文翻譯為阿拉伯語。這聽起來似乎不可能,對吧?”其中一項研究的第一作者、西班牙圣西巴提巴斯克國家大學(UPV)計算機專家Mikel Artetxe說,“但我們證明計算機可以做到這一點。”

      大多數機器學習——神經網絡和其他從經驗中學習的計算機算式會受到“監督”。計算機會進行推測,然后接收到正確答案,并據此調整相應的過程。在教一臺計算機如何在諸如英語和法語之間進行翻譯時,這種模式會非常有效,因為很多文獻在這兩種語言中同時存在。但它對于罕見的語言,或者是那些沒有很多平行文本的通用語言并不奏效。

      這兩篇尚未經過同行評議的新文章均已被提交給明年的國際學習表征會議,它們聚焦了另一種方法:不監督機器學習。一開始,計算機在沒有人類老師告訴它們其推測是否正確的情況下建設雙語詞典。這是因為語言在詞匯結合方面有著很強的相似性。例如,在各種語言中,桌子和椅子的詞匯經常會一起使用。因此,如果計算機將這些共現性像一個城市巨大的公路地圖那樣描繪出來,那么不同語言的地圖就會彼此相似,只不過它們擁有不同的名字。如此一來,計算機就能找出將一個地圖集覆蓋在另一個地圖集上的最佳方法。瞧!一本雙語詞典出現了。

      這兩篇文章運用了非常類似的方法,均能在語句層面進行翻譯。它們均使用兩種訓練策略,即回譯和去噪。在回譯中,一種語言中的一句話被粗略地翻譯成另一種語言,然后再被轉譯回最初的語言。如果回譯的語句與最初語句并不相同,那么將對神經網絡進行調整,從而使它們在下一次翻譯得更加準確。去噪類似于回譯,但它不是從一種語言翻譯為另一種語言,然后再轉換為原語言,而是在一個句子中加入噪音(重新編排或是刪除詞匯),并嘗試將其翻譯到原語言中去。這兩種方法相結合教會了網絡更深層次的語言結構。

      不過,這兩種技術之間也有些微差異。UPV的系統在訓練過程中進行了更多的回譯。而另一個由位于法國巴黎的臉譜網計算機科學家與其合作者研發的系統,則在翻譯過程中加入了額外的步驟。在將其“解碼”為另一種語言之前,兩套系統都會將一種語言的一個句子編碼為一種更加抽象的表征,但臉譜網的系統驗證了中間的“語言”是真正抽象的。Artetxe和Artetxe均表示,他們可以通過應用對方論文中的技術來改善自己的結果。

      在兩篇文章之間進行的唯一直接對比結果中——對摘自同一組約3000萬個語句在英語和法語文本之間進行翻譯,兩套系統在雙向翻譯中均獲得了15分的雙語評估分數(用來衡量翻譯準確性)。這個分值沒有谷歌翻譯高(該系統所用的受監督的方法得分為40分),也不如人類翻譯得分高(超過50分),但卻比逐字翻譯要好得多。作者表示,兩套系統可以很容易地通過變為“半監督性”得到改善,即把數千個平行的語句加入到它們的訓練中。

      除了不需要平行文本進行跨語言翻譯之外,Artetxe和Lample均表示,他們的系統有助于進行諸如英語和法語之間的常用翻譯匹配,特別是如果平行文本是同一類的話,如新聞報道。但除此之外,人們還希望將其翻譯為不同類型的文本,如街頭俚語或是醫學術語。“但這一切尚處于新生階段。”Artetxe的共同作者Eneko Agirre說,“我們剛剛開始了一個新的研究大道,現在我們還不知道它會通向哪里。”

      中國北京計算機學家、其工作對上述兩項研究產生影響的Di He說:“在沒有人類監督的情況下,計算機能夠學習翻譯,這令人吃驚。”Artetxe說,他的方法和Lample的方法被上傳到arXiv預印本服務平臺的時間前后僅相隔1天,這樣的時間巧合令人吃驚。“同時,它意味著這種方法的確是正確的方向。”

    相關文章

    首個歐洲量子計算機網絡將于2023年投入使用

    歐洲高性能計算聯合企業(EuroHPCJU)10月4日宣布,將選擇捷克、德國、西班牙、法國、意大利、波蘭六個成員國來部署史上第一個歐洲量子計算機網絡,它將整合這六個國家現有的超級計算機,形成一個量子計......

    我國團隊首創新算法,讓細胞與計算機“對話”

    細胞內有數以億計的堿基、表達程序以及運行策略,而且各不相同。單細胞測序技術可解讀單個細胞里的這些信息,但人工干預多、過度依賴人為選定的標記基因使得單細胞測序技術對細胞的注釋穩定性較低。可以理解為,同一......

    百度發布量子計算機:不是裸機,“開箱即用”

    文|《中國科學報》記者趙廣立把“量子計算機”與“產業化”聯系在一起?是的。成立4年多的百度量子計算研究所,決定在時下熱門的量子計算的賽道上,做點不一樣的。8月25日,在“量見未來”量子開發者大會上,百......

    科學家提出液晶計算機新構想

    科技日報北京8月22日電(記者劉霞)兩位科學家在最新一期《科學進展》雜志上撰文提出了一種新的計算機制造方法:用液晶構建計算機,這種計算機將使用分子的朝向來存儲數據,其計算方式類似量子計算機,但比量子計......

    錨定三大使命,60歲的中國計算機學會再出發

    2022年是中國計算機學會(CCF)創建六十周年。8月6日,CCF在蘇州業務總部&學術交流中心(CCFCCB)舉行了創建六十周年慶典活動。來自政府相關部門、學術界、產業界的500多位代表受邀現......

    2022CCF未來計算機教育峰會舉行

    7月22~23日,由中國計算機學會(CCF)主辦,蘇州大學、蘇州科技大學、蘇州城市學院、上海師范大學、浙江工商大學聯合承辦的2022CCF未來計算機教育峰會(FCES2022)在蘇州CCFCCB(業務......

    李和風調研計算機網絡信息中心

    7月15日,中國科學院黨組成員、副秘書長李和風到中科院計算機網絡信息中心調研網絡安全工作。李和風一行觀看了中國科技云、院網絡安全保障平臺等系統的演示,聽取了院網絡安全管理和技術保障工作匯報,并進行了交......

    從計算到智算,計算機革命已列入“十四五”

    算力作為數字經濟時代的關鍵生產力要素,已成為推動數字經濟發展的核心支撐力和驅動力。在6月29日舉行的中國算力大會新聞發布會上,工業和信息化部副部長張云明透露,截至2021年底,我國在用數據中心機架總規......

    我國學者在面向社交媒體的情感語義計算研究方面進展

    圖面向社交媒體的情感語義計算框架社交媒體是以社會網絡為基礎,互聯網用戶發表和分享信息為主要形式的在線交互媒體,對社交媒體中的文本進行全面、深度的情感語義分析具有重要的理論意義和應用價值。在國家自然科學......

    國內首次!清華姚班本科生斬獲國際計算機頂會大獎

    一個由3名中國本科生組成的團隊,近日在全球頂會計算理論年會(STOC)上擊敗眾多本碩博組合,摘得最佳學生論文獎。這項結果殊為不易。其一,STOC由美國計算機協會(ACM)舉辦,在理論計算機科學這座山峰......

  • <noscript id="yywya"><kbd id="yywya"></kbd></noscript>
  • 东京热 下载