天天看點

Alpha版本釋出說明

項目名稱 Pipeline
項目版本 Alpha版本
負責人 北京航空航天大學計算機學院 C705團隊
聯系方式 http://www.cnblogs.com/C705/
釋出日期 2014-11-23

更新内容: 

 1.修複缺陷:

  a)中英文分詞算法改進

  b)提取文檔資訊改進

  c)提取關鍵詞結構優化

  d)修複與爬蟲資料庫資料互動問題

  e)修複無法找到檔案時出錯問題

  f)修複錯誤标簽存在的問題

  g)修複資料庫連接配接沒有close導緻崩潰的問題

2.新功能:

  a)支援對pdf的資訊提取

    下面的兩個圖中,左邊是pdf源檔案的内容,右邊是進行轉換後輸出的txt檔案的内容,可以看出,txt檔案保留了pdf的分段、提行資訊。

    

Alpha版本釋出說明
Alpha版本釋出說明

  b)支援對word文檔的資訊提取

     下面以資料庫課程設計要求文檔展示word轉換為txt的效果。

     這是word中的目錄頁:

     

Alpha版本釋出說明
Alpha版本釋出說明

                後面的内容:

Alpha版本釋出說明

   c)支援對電子表格的資訊提取:

      

Alpha版本釋出說明

      轉換後,基本上能夠保持原表格的結構:

Alpha版本釋出說明

環境要求: 

作業系統需求 Windows作業系統
運作環境需求
資料庫需求 需配置資料庫到Windows(或Windows   server)資料源中,資料庫名為crawler

安裝方法:

  直接解壓安裝,在Pipeline\Pipeline\bin\Debug檔案夾中找到Pipeline.exe可以打開程式。

系統已知的問題和限制:

   a)爬取檔案名和檔案所在路徑不能過長

   b)無效字元的無法處理

   c)資料庫與檔案資訊不比對會出現異常

   d)檔案中圖檔資訊無法提取

軟體的釋出方式以及釋出位址:

  代碼釋出在伺服器219.224.191.25上,可下載下傳使用。