模擬、測評與偵測重組病毒:於建置腸病毒深度學習模型之應用

研究計畫: 國家科學及技術委員會(原科技部) 國家科學及技術委員會學術補助

研究計畫-專案詳細資料

摘要

本次計畫將延續前一個科技部計畫於應用機器學習進行人類腸病毒基因重組檢測之結果,進一步提出一套更系統化且全面的方法來解決重組檢測問題。已知基因數據資料庫中提供有近百種人類腸病毒血清型,其中兩種血清型,亦及腸病毒71型(EV-A71)和克沙奇病毒 A16型(簡稱CV-A16),更各自有超過十種的基因型或亞基因型(genotype/subgenotype)。根據腸病毒 VP1基因序列相似度,近百個血清型又被分為稱為HEV-A,-B,-C,和-D的四「種」(species),其中最小群HEV-D中的血清型只有四個,而最大群HEV-B血清型高達57個。過去我們已經成功地應用TensorFlow和Keras建立深度學習框架,於其中實現了Long Short Term Memory(LSTM)模型,針對五種HEV-A進行分類學習與辨識,包括三種EV-A71基因型和兩種其他血清型(CV-A4與CV-A16),並用來偵測已知由這五種病毒重組而成的新型腸病毒,也得到了不錯的預測結果。但過去的分析有兩大問題,第一個是訓練數據中需要包括完整的病毒型別,不是只有我門選用的五種;第二個是這些類型之間的數據資料數量不平均,有些大到將近1,000,有些小到只有個位數,這會影響 LSTM模型進行訓練的過程,而無法準確的分類。此計畫的目標,是通過篩選與模擬,來建置出適合用於分類腸病毒血清型/基因型/亞基因型所需之序列資料,然後將它們導入LSTM模型來檢測腸病毒的重組 。在第一年,我們將收集所有公開的腸病毒基因組,並為四「種」腸病毒中的每一「種」獨立開發一個新的替代矩陣,以提高多重序列排比(multiple sequence alignment,MSA)的品質,然後再構建用於標記其類型的親緣演化樹。我們將比較運用此矩陣的MSA來評估排比品質,構建系統樹,並通過沿著整段病毒基因組進行掃描,來去除不合格的訓練序列。合格的MSA將通過SANTA-SIM工具進一步用於生成模擬序列,以解決數據不平衡的問題。在第二年,我們將使用測評數據優化LSTM模型的超參數,不僅將重組個案的結果與以前的研究進行比較,也將LSTM模型的性能與其他現有方法進行對照。最後,將建立一個可查詢預測重組結果,與根據用戶需求來預測序列是否有重組的網站,並將於GitHub網站上公開 LSTM程式碼和測評資料集。

Project IDs

系統編號:PB10907-4373
原計畫編號:MOST109-2221-E182-043-MY2
狀態已完成
有效的開始/結束日期01/08/2031/07/21

Keywords

  • 資訊科學--軟體
  • 腸病毒
  • 物種
  • 多重序列排比
  • 分類
  • 深度學習
  • 基因重組
  • 測評

指紋

探索此研究計畫-專案觸及的研究主題。這些標籤是根據基礎獎勵/補助款而產生。共同形成了獨特的指紋。