項目名稱 | Pipeline |
項目版本 | Alpha版本 |
負責人 | 北京航空航天大學計算機學院 C705團隊 |
聯系方式 | http://www.cnblogs.com/C705/ |
釋出日期 | 2014-11-23 |
更新内容:
1.修複缺陷:
a)中英文分詞算法改進
b)提取文檔資訊改進
c)提取關鍵詞結構優化
d)修複與爬蟲資料庫資料互動問題
e)修複無法找到檔案時出錯問題
f)修複錯誤标簽存在的問題
g)修複資料庫連接配接沒有close導緻崩潰的問題
2.新功能:
a)支援對pdf的資訊提取
下面的兩個圖中,左邊是pdf源檔案的内容,右邊是進行轉換後輸出的txt檔案的内容,可以看出,txt檔案保留了pdf的分段、提行資訊。

b)支援對word文檔的資訊提取
下面以資料庫課程設計要求文檔展示word轉換為txt的效果。
這是word中的目錄頁:
後面的内容:
c)支援對電子表格的資訊提取:
轉換後,基本上能夠保持原表格的結構:
環境要求:
作業系統需求 | Windows作業系統 |
運作環境需求 | 無 |
資料庫需求 | 需配置資料庫到Windows(或Windows server)資料源中,資料庫名為crawler |
安裝方法:
直接解壓安裝,在Pipeline\Pipeline\bin\Debug檔案夾中找到Pipeline.exe可以打開程式。
系統已知的問題和限制:
a)爬取檔案名和檔案所在路徑不能過長
b)無效字元的無法處理
c)資料庫與檔案資訊不比對會出現異常
d)檔案中圖檔資訊無法提取
軟體的釋出方式以及釋出位址:
代碼釋出在伺服器219.224.191.25上,可下載下傳使用。