天天看點

資料轉換服務-文本抽出技術

  利用我公司自主開發的資料格式轉換産品,面向社會各界,提供資料轉換技術服務。根據使用者的需求,将使用者提供的原始資料檔案轉換為使用者所需的資料檔案格式。本公司向廣大使用者承諾,資料格式轉換結果滿足使用者的需求,收費價格合理。為使用者提供品質優良的技術服務。

    DMC Text Filter是北京市紅櫻楓軟體有限公司自主獨立開發完成的,支援多平台、多線程、多語言的通用文本抽出程式庫。利用該程式庫可以從數十種資料檔案格式中,将純文字資料進行抽出。

  (1)原資料檔案的語言

    中國語(簡體/繁體),英語,日本語及南韓語。

  (2)文本抽出時可以指定以下的文字集合

    ★中文簡體(GB2312、GB18030、GBK)

    ★中文繁體(Big5)

    ★日文(Jis、Shift_Jis、EUC_JP、EUC_JP_Fix、ISO2022_JP、Window31J)

    ★韓文(KoreanKSC)

    ★西文(ISO8859-1~15)

    ★Unicode(UTF8、UTF16、UCS4、UCS8)

  (3)原資料檔案格式的種類

    ·Microsoft Word95/97/98/2000/2003/XP

    ·Microsoft Excel95/97/2000/2003/XP

    ·Microsoft PowerPoint95/97/2000/2003/XP

    ·Adobe PDF 1.2/1.3/1.4/1.5

    ·Adobe PageMaker 6.0/6.5

    ·Microsoft RTF

    ·Lotus 1-2-3 R5/97/98/2000

    ·Works 2000 WP/DB/SS

    ·一太郎 7/8/9/10/11/12/13

    ·OASYS V3/V4/V5/V6/V7/V8 OA2

    ·ClarisWorks 4.0

    ·AppleWorks 6

    ·WordPerfect Office 2000(僅限于WordPerfect 8/9 )

    ·Corel Presentations 9(Slide show 7/8/9)

    ·QuarkXPress 3.3/4

    ·AutoCAD R13/LT95/ R14/LT97 DXF

    ·AutoCAD 2000/2002

    ·DocuWorks Ver.4/5

    ·HTML

    ·XML

  (4)文本抽出時可以指定以下的功能

    ★從指定的檔案或嵌在檔案中的OLE對象中抽出文本資料。

    ★從指定的檔案中,将檔案的屬性資訊進行抽出。

    ★從指定的檔案中,抽出指定頁中的文本資料。

    ★從設定了安全保護的PDF檔案中抽出文本資料。