研究計畫-專案詳細資料
摘要
自從 1999 年 Tim Berners-Lee 展示了 WWW 的概念後,WWW 已經變成生活上不可或缺的資訊平台,WWW 是一個豐富而且動態的超級資訊平台,而搜尋引擎是使用這個平台的金鑰,但是搜尋引擎最重要的第一步就是要擷取全世界的網頁副本,才可以進行下一步驟的索引與查詢服務,但是目前全世界的網頁的數量已經高達數百億甚至數千億,如何擷取這麼大量的網頁式一個困難而且重要的議題。本次的研究計畫目的是希望能夠透過 Service Oriented Architecture 的概念,將 Crawler 的功能模組化、服務化,藉而設計有別於傳統架構的大型 Crawler 系統,擷取全世界的網頁,藉此讓台灣在 Information Retrieval 的研究可以找到一個入口,加快台灣的研究速度,並提升相關的研究能量。本研究計畫於去年獲得第一年的研究經費,本次希望利用第一年的研究成果延續此研究案,研究的重點,分別為 1)前一年以 SOA 概念重新設計 Crawler 系統每個模組,並且研究與設計解決 URL Overlap 的問題、2) 第一年研究與設計資料選擇的演算法與利用壓縮技術減少資料存放空間,並且設一套擷取下載網頁的方法、3) 第二年進行台灣、全世界的網頁資料擷取實驗與相關資料分析,並且研究與實作資料分類與資料更新的演算法透過本次研究計畫的執行,將可建立一套以 SOA 為概念的大型網路資料擷取系統,並且擷取全世界網頁,提供給台灣學術界相關研究人員使用,研究成果也會以 Open Source 與相關研究人員共享,提昇本國相關產業競爭力,亦可以培養更多相關資訊人才。
Project IDs
系統編號:PB10308-4316
原計畫編號:MOST103-2221-E182-053
原計畫編號:MOST103-2221-E182-053
| 狀態 | 已完成 |
|---|---|
| 有效的開始/結束日期 | 01/08/14 → 31/07/15 |
Keywords
- 資訊科學--軟體
- 網路資料擷取 服務導向架構
指紋
探索此研究計畫-專案觸及的研究主題。這些標籤是根據基礎獎勵/補助款而產生。共同形成了獨特的指紋。