應用分散式搜尋法及集成架構提昇資料探勘效率之研究

研究計畫: 國家科學及技術委員會(原科技部) 國家科學及技術委員會學術補助

研究計畫-專案詳細資料

摘要

現今有許多資料探勘的技術被大量運用在解預測及分類問題上,而其中的決策樹(Decision Tree, DT)、倒傳遞類神經網路(back-propagation network, BPN)、支援向量機(support vector machine, SVM)及支援向量迴歸(support vector regression, SVR)更可應用在各種領域上。但在應用決策樹、倒傳遞類神經網路、支援向量機/支援向量迴歸等技術時,需要先決定這些參數。若這些參數值設計不好,會獲得較差之結果。因此常要讓使用者進行類似"試誤"的動作,經過多次實驗後才可決定,但這種方式可能會找到較差的參數。另外,資料集中包含著許多屬性資料,但其中的屬性並非全部對於預測都有所幫助。使用資料中可能屬性存有高度相關、含有雜訊或是屬性對於分類結果毫無助益,若採用一些屬性篩選的方法,會因雜訊或過多的資料造成分類效能不佳。大多數研究僅利用參數調整或屬性篩選其中一種來改善分類器的正確率,少部份文獻有同時考慮參數調整與屬性篩選,但其只應用於特定問題之資料而非公開的資料庫資料,所以無法供後續研究比較其優缺點。因此,本研究提出以分散式搜尋法(ScatterSearch, SS)來尋找DT、BPN 與SVM/SVR 之參數,並進行屬性篩選,透過SS 找出符合各種問題所需要的參數,並剔除對於分類正確率較無助益之屬性。上述的資料探勘方法有各自其優缺點及適用的問題特性,此時若能將其預測整合,得到更佳之結果的好處,此種方法稱為集成(ensemble)架構。集成最早的概念源自於委員會機器 (committee machine),由Nilsson 在1965 提出。其目的為利用多位專家組合而成,按照某些特定的方式整合各個專家的意見進行決策,其結果會比只有單一專家的效果更好;此外由每個專家的擅長之處不同,透過組合的機制可以讓專家之間彼此互補,得到更好的結果。因此本計畫擬使用集成架構,以更進一步地提高預測/分類的正確性。為評估本計劃所提出之方法,本計劃擬使用UCI 機器學習資料庫之資料集作為標竿題目。本計劃預期同時進行參數調整與屬性篩選將會比單獨使用參數調整或屬性篩選,可獲得更好的分類結果與更少的計算時間。因此,分散式搜尋法結合決策樹、倒傳遞類神經網路與支援向量機之SS+DT, SS+BPN, SS+SVM 及SS+SVR 應能在面對各種問題時,彈性調整出最佳參數與屬性集合,以提高預測/分類預測之正確率。

Project IDs

系統編號:PF9801-1794
原計畫編號:NSC97-2410-H182-020-MY2
狀態已完成
有效的開始/結束日期01/08/0931/07/10

Keywords

  • 管理科學
  • 分散式搜尋法
  • 決策樹
  • 倒傳遞類神經網路
  • 支援向量機
  • 參數最佳化
  • 屬性篩選
  • 集成架構

指紋

探索此研究計畫-專案觸及的研究主題。這些標籤是根據基礎獎勵/補助款而產生。共同形成了獨特的指紋。