利用多模式資料融合方法建構具理解及推理使用者談話之對話機器人研究

研究計畫: 國家科學及技術委員會(原科技部) 國家科學及技術委員會學術補助

研究計畫-專案詳細資料

摘要

目前現有的聊天機器人,其型態大部份是屬於文字的對話機器人。主要技術基於一些預先給定的回覆規則或利用巨量的對話數據集進行學習,來與人對話。這種對話機器人通常使用文句或語音界面進行通信。現有的對話機器人使用序列對序列方法(例如問答方法),以生成對用戶對話對話的輸出回應。但大多數對話機器人設計中,並沒有考慮多型態的資料,例如文本,圖像,語音和視頻,用以理解人們在對話中使用時的真實含義。據我們所知,目前並沒有任何一種對話機器人可以同時理解各種不同型態資料。除此之外,現有的對話機器人並沒有推理(思考)功能來將機器人回應內容與先前對話做關聯。根據我們的研究,目前還沒有任何專注於具推理功能且能處理各種不同型態資料的聊天機器人研究工作。因此,在我們擬定的兩年計畫提案中,我們將研發一款名為“Aaron”的通用智能聊天機器人。Aaron可以理解不同型態資料的用戶對話並具有推理能力。在此研究項目中,我們主要關注對話機器人中的兩個問題。第一個問題是如何理解不同型態資料的用戶對話。為此,我們提出了一種具有雙向長短期記憶(Bi-LSTM)的分層多模態資料融合方法,以理解和組合用戶對話中呈現的不同型態資料的特徵。第二個問題是如何設計具有推理功能的對話機器人。要做到這一點,我們有兩種方法。在第一種方法中,我們總結了用戶之前與Bi-LSTM的對話,並將匯總數據儲存為外部存儲器的一部分。而在第二種方法中,我們使用Bi-LSTM於用戶當前對話的多模態資料融合以獲得輸入特徵,並與用戶先前對話的匯總數據相關聯。我們將使用公開的Stanford問答集、DeepMind問答語料庫以及Amazon問答數據集作為訓練Aaron的文本數據集。同樣,我們使用TIMIT聲學-語音連續語音數據集和LibriSpeech自動語音識別數據集,作為音頻數據集來訓練Aaron。關於圖型訓練,我們將使用Flickr 30K數據集作為圖像數據集來訓練Aaron。對於視頻數據集,我們使用Kinetics數據集,Youtube-8M數據集和時刻數據集來訓練Aaron。我們將使用Python編程語言來實現Aaron。此外,我們將開發iOS應用程式和Android應用程式做為Aaron的圖形用戶界面。在開發這些應用程序之後,我們將在AppStore和GooglePlayStore中發布它們以供大眾使用。

Project IDs

系統編號:PB10901-2437
原計畫編號:MOST108-2221-E182-042-MY2
狀態已完成
有效的開始/結束日期01/08/2031/07/21

Keywords

  • 資訊科學--軟體
  • 語音
  • 雙向長短期記憶
  • 對話機器人
  • 資料融合
  • 深度學習
  • 圖像
  • 推理
  • 文本
  • 視頻

指紋

探索此研究計畫-專案觸及的研究主題。這些標籤是根據基礎獎勵/補助款而產生。共同形成了獨特的指紋。