------------------------------------------2013.7.26------------------------------------------
近地面大氣溫度31°C,天氣晴。
昨天了解到java有一個jacob開源庫可以将word轉換為html格式。
【猜想】word中的圖表資訊會在html中轉換為相似的table等标簽進行存儲。
如果猜想正确的話,便可以分析提取html文檔中的有效資訊,進一步生成規定格式的xml文檔。
【下午的工作】
上午的猜想完全正确。
在浏覽了一些關于jacob的資料之後,成功的引用jacob庫将包含表格的word文檔轉化成了html及txt格式。
特别感謝ID=捂汗縣長 文章中的資料。
參考資料:jacob 實作Office Word檔案格式轉換..:http://blog.csdn.net/laoyaotask/article/details/9391435
期間遇到了無法讀寫源word文檔的問題,是由該源檔案為隻讀格式引起的,更改之後問題解決。
【下步計劃】
因為轉化成的html文檔也隻是單純的文本,而不存在标簽,是以在比較之後決定直接使用txt格式的文檔使用自然語言處理(NLP)對其進行資料的挖掘。
------------------------------------------2013.7.31------------------------------------------
近地面大氣溫度29°C,天氣晴,略有霧霾。
明天就踏上回家的旅程了~略開心,雖然取票的時候遇到了一些小波折。
【想法】希望今天可以把批量轉化實作,打算繼續使用java來實作,主要是為了友善之前的代碼拼合。
【上午的工作】
實作了今天的想法。将指定目錄下的所有word文檔批量轉化為了txt文檔。
了解了java中的一些關于檔案調用的方法。
//擷取目前檔案對象的檔案名,轉為字元串格式并判斷是否以.doc結尾
File file.getName().toString().endWith(.doc);
//判斷該檔案對象是否為檔案夾
File file.isDirectory();
//擷取路徑下所有的檔案和檔案夾【.listFile()】
File[] files = path.listFiles(new FileFilter()
參考資料來源:
java周遊目錄下所有字尾名為.java的檔案:http://zhidao.baidu.com/question/229445883.html
java FileFilter 過濾隻保留檔案夾和.xls檔案:http://zhidao.baidu.com/question/538907121.html
【下步計劃】
其實就是26号的【下步計劃】,不過轉換成xml的方法初期将換為正規表達式。
——————————因為學習計劃變更,該項目暫時終止——2014.3.7——————————