Fast Gene Selection for Genetic Diseases by Using cDNA Microarray Gene Expression Data

Project: National Science and Technology CouncilNational Science and Technology Council Academic Grants

Project Details

Abstract

尋找基因與疾病的關係是醫學與生命科學致力追求的目標之一,也是生物資訊領域的研究重點。目前,基因微陣列晶片技術的使用,有助於個別基因表現量的定量分析,基因微陣列晶片具備快速、方便、經濟、省時等特性,適用於大量基因表現的篩檢及比對等研究,醫學上可以根據基因微陣列晶片上的基因表現資料,找出遺傳疾病相關的關鍵基因,日後得以只用這些基因的表現量來識別一個病患是否患有該特定疾病。由於人類基因的數量實在是非常龐大,若是一個一個去篩選與一特定遺傳疾病可能相關的關鍵基因,則所花費的時間及成本就會很高。使用基因表現資料針對遺傳疾病關鍵基因的搜尋與篩選,可借用特徵挑選(Feature Selection)的資訊技術來處理,特徵挑選在資料探勘中是一種極有用的資料前處理技術,它通常被用來降低資料的特徵維度以及改進分類問題的識別率。當我們採用特徵挑選方法來解決此一問題時,除需要考慮識別精確度外,所需要的時間成本也是不可忽視的考慮因素。在許多實際的應用上,如果搜尋空間非常大,則耗竭式的搜尋顯的切不可行,主因其大量的運算時間需求所致。遺傳演算法(Genetic Algorithm, GA)與最近鄰居分類法(K Nearest Neighbor, KNN)的併用,可快速找到許多組具區別力的關鍵特徵,並可將這些關鍵特徵的區別力按在各組出現頻率的次數作一統計評分,根據出現頻率的高低作為判斷相關性高低的依據。然而,搜尋這些關鍵特徵組的時間需求凸顯了此一方法的弱點,因此,本研究計劃分析並進一步改善此方法,以有效減少運算時間並兼顧識別精確度。另外,在分類識別的問題上,自然貝氏分類法(Naive Bayesian Classification, NBC)比KNN 速度快,因此我們也結合了GA 與NBA,探討使用GA/NBC 篩選遺傳疾病相關基因的時效性與有效性,並與GA/KNN 的方法做一比較。

Project IDs

Project ID:PB9308-2758
External Project ID:NSC93-2213-E182-010
StatusFinished
Effective start/end date01/08/0431/07/05

Fingerprint

Explore the research topics touched on by this project. These labels are generated based on the underlying awards/grants. Together they form a unique fingerprint.