天天看點

【學習檔案】word文檔轉為XML格式

------------------------------------------2013.7.26------------------------------------------

近地面大氣溫度31°C,天氣晴。

昨天了解到java有一個jacob開源庫可以将word轉換為html格式。

【猜想】word中的圖表資訊會在html中轉換為相似的table等标簽進行存儲。

如果猜想正确的話,便可以分析提取html文檔中的有效資訊,進一步生成規定格式的xml文檔。

【下午的工作】

上午的猜想完全正确。

在浏覽了一些關于jacob的資料之後,成功的引用jacob庫将包含表格的word文檔轉化成了html及txt格式。

特别感謝ID=捂汗縣長 文章中的資料。

參考資料:jacob 實作Office Word檔案格式轉換..:http://blog.csdn.net/laoyaotask/article/details/9391435

期間遇到了無法讀寫源word文檔的問題,是由該源檔案為隻讀格式引起的,更改之後問題解決。

【下步計劃】

因為轉化成的html文檔也隻是單純的文本,而不存在标簽,是以在比較之後決定直接使用txt格式的文檔使用自然語言處理(NLP)對其進行資料的挖掘。

------------------------------------------2013.7.31------------------------------------------

近地面大氣溫度29°C,天氣晴,略有霧霾。

明天就踏上回家的旅程了~略開心,雖然取票的時候遇到了一些小波折。

【想法】希望今天可以把批量轉化實作,打算繼續使用java來實作,主要是為了友善之前的代碼拼合。

【上午的工作】

實作了今天的想法。将指定目錄下的所有word文檔批量轉化為了txt文檔。

了解了java中的一些關于檔案調用的方法。

//擷取目前檔案對象的檔案名,轉為字元串格式并判斷是否以.doc結尾
File file.getName().toString().endWith(.doc);

//判斷該檔案對象是否為檔案夾
File file.isDirectory();

//擷取路徑下所有的檔案和檔案夾【.listFile()】
File[] files = path.listFiles(new FileFilter()
           

參考資料來源:

java周遊目錄下所有字尾名為.java的檔案:http://zhidao.baidu.com/question/229445883.html

java FileFilter 過濾隻保留檔案夾和.xls檔案:http://zhidao.baidu.com/question/538907121.html

【下步計劃】

其實就是26号的【下步計劃】,不過轉換成xml的方法初期将換為正規表達式。

——————————因為學習計劃變更,該項目暫時終止——2014.3.7——————————