跳至主導覽 跳至搜尋 跳過主要內容

機器翻譯與真人寫作之間的差異---以中文為目標語言

研究計畫: 國家科學及技術委員會(原科技部) 國家科學及技術委員會學術補助

研究計畫-專案詳細資料

摘要

機器翻譯與真人寫作之間的差異:以中文為目標語言儘管免費線上翻譯軟體所產生的翻譯品質仍有許多改進的空間,像 Google 翻譯這 樣的網路服務,仍然相當受到歡迎。翻譯軟體所產生的中文,很容易被慣用中文的人看 出來這是翻譯軟體的輸出,但若是要有系統性地描述翻譯軟體所產生的中文與慣用中文 的人所寫的中文有甚麼不同,並不容易。過去針對機器翻譯輸出所做的評估,大多仰賴 和真人翻譯作比較,重點在算出分數高低,不在乎錯誤的類型為何。本研究欲借用作者 歸屬(authorship attribution,找出何人為真正作者)的技巧和概念,將機器翻譯與真 人作者視為兩個不同作者,描述翻譯軟體所產生的文字與人寫的文字,在詞彙和語法上 有何不同。本研究的執行主要包含(1)蒐集母語作者編撰的文件以及機器翻譯的文件;(2)擷取 特徵值;(3)利用機器學習演算法找出重要的特徵值;(4)針對前一個步驟的結果加以分 析解釋。其中,文件內容的來源將取自維基百科。維基百科容許多人編撰同一條目,以 及同一條目有多國語言的特性,可以避免因特殊個人寫作風格,以及主題和文體的不 同,造成演算法選擇錯誤的重要特徵。為了擷取語法階層的特徵值,本研究將使用中研 院開發的中文剖析器剖析文句。預期研究結果將對像反抄襲系統這一類需要偵測機器翻譯文字的研究,以及機器翻 譯系統本身的發展有相當的貢獻。

Project IDs

系統編號:PB10112-0087
原計畫編號:NSC101-2410-H182-031
狀態已完成
有效的開始/結束日期01/11/1231/10/13

Keywords

  • 資訊科學--軟體
  • 中文自然語言處理
  • 文字探勘
  • 機器翻譯
  • 維基百科
  • 作者歸屬

指紋

探索此研究計畫-專案觸及的研究主題。這些標籤是根據基礎獎勵/補助款而產生。共同形成了獨特的指紋。