從來源語之語法特徵預測機器翻譯中的長距離語序問題

研究計畫: 國家科學及技術委員會(原科技部) 國家科學及技術委員會學術補助

研究計畫-專案詳細資料

摘要

來源語和目的語的語法結構差異,常對機器翻譯造成挑戰。尤其像英中之間的翻譯,有不少長距離的語序問題。Google Translate 這樣先進的統計式機器翻譯,使用大量語言資料做運算,即可處理許多區域性的語序問題。然而在統計式機器翻譯的設計中,為了確保運算效率以及翻譯品質,皆會設定語序可以調整的限度,亦即二語語序只能在一定的字數內前後調整;若語序差異距離大,即無法處理。若干學者曾針對語序問題提出解決方案,但語序問題依然有很大的改善空間。原因之一在於,適用於處理長距離語序問題的方法常會破壞不須特別處理的譯文,並使整體翻譯效率下降。較適當的做法,應在進入機器翻譯或是自動前編輯之前,有判斷的機制,找出需要長距離語序處理的句子。本計畫所提的方案使用機器學習演算法,藉由目前機器翻譯的資料,對來源語句做分類。每個句子將被歸類為「有長距離語序問題」或「無長距離語序問題」。特徵值的選擇則是考慮會影響長距離語序問題的語法特徵,如補語的組成,介詞片語的內部結構等等。使用機器學習的方法將會和直接計算可翻譯度的方法做比較,評估其適切性。此外,用來作為訓練資料的語料庫也會用來分析機器翻譯的限制,找出解決長距離語序問題的方向。此計畫以Google Translate 的英中翻譯為分析資料。但同樣的方式,只要更換訓練資料,並將詞彙特徵值改為新來源語的詞彙,即能用來偵測其他機器翻譯系統處理其他翻譯配對所產生的長距離語序問題。

Project IDs

系統編號:PB10406-1540
原計畫編號:MOST104-2410-H182-008
狀態已完成
有效的開始/結束日期01/08/1531/07/16

Keywords

  • 資訊科學--軟體
  • 計算語言學
  • 機器翻譯
  • 長距離語序問題
  • 華語
  • 英語
  • 機器學習

指紋

探索此研究計畫-專案觸及的研究主題。這些標籤是根據基礎獎勵/補助款而產生。共同形成了獨特的指紋。