-
背景
在當下的大資料時代中,各行各業都同時面臨大資料所帶來的資料規模大和資料來源繁多的機遇與挑戰。如何更好的擷取資料、處理資料和合并資料對于提高工作效率是至關重要的。
PDF是非常常見的資料來源,尤其見于公司的各種報告和報表中。将PDF中的資料提取出來并做相應的整合在通常情況下我們隻能借助IT人員的幫助,編寫複雜的代碼或者使用資料提取軟體在多個平台上重複操作。這些方法增加了時間成本和人工成本,使資料擷取和準備工作變得繁瑣無趣讓人厭煩。那麼有沒有一種工具無需任何編碼可以同時解決PDF資料擷取和整合,以及資料處理和操作,最後直接導出這些工作呢?
今天我就為大家介紹一款快30年曆史的專業資料準備軟體Altair Monarch Data Prep Studio(以下簡稱為Altair Monarch)。
本篇文章主要講解如何利用Altair Monarch資料準備工具快速準确的提取非結構化PDF資料,并根據關鍵詞合并多頁PDF内容。進而提高資料準确性,讓資料工作變得輕松快樂。
-
Altair Monarch功能介紹
Altair Monarch是一款用于資料準備的軟體,其可從任何來源的資料中快速,簡單地提取需要的資料,包括将非結構化資料,如PDF、文本、網頁等,轉化為行與列的結構化資料,提取資料後,使用者可以在無需編碼和基于滑鼠點選的方法下進行資料的清理、轉換、合并、去重等工作,并且可以導出到任何的資料分析平台或者BI工具進行進一步的操作。
Altair Monarch主要有以下功能:
第一, Altair Monarch 目前内置的48個資料連接配接口可以從幾乎任何資料來源中快速、簡單的提取需要的資料,主要包括:
• 直接導入結構化資料表,如Excel等;
• 将非結構化資料,如PDF、文本、網頁等,轉化為行與列的标準結構資料;
• 從關系型和非關系型資料庫中導入資料表,如SQL、Hadoop等;
• 從第三方軟體中導入資料,如Salesforce、SAP等;
資料連接配接口的多樣性使資料錄入工作變得友善快捷、對IT人才的依賴大大降低、同時減少人工成本,使業務人員不必為了收集資料的事情浪費時間。
第二, Altair Monarch提供多種資料處理功能,無需任何編碼,滑鼠點選即可完成。
主要的操作功能清單:
• 資料處理,如缺失值填充、單元值拆分、自定義計算函數等;
• 資料表轉換,如多列排序、透視表、分組彙總、去重等;
• 資料表合并,如内連接配接、左/右連接配接、多表格附加等;
• 資料多字元列彙總分析等;
由于軟體無編碼要求,任何人都可以短時間内快速上手。同時更突出的優勢在于所有的操作都可儲存下來,重複使用。
第三, Altair Monarch 可将處理後的标準化資料導出,銜接其他常用的資料和可視化軟體。

-
抓取和合并多頁PDF資料并進行資料處理和彙總的具體案例-以報賬單為例
企業員工每月報賬單,包含細節内容都按照統一的模闆儲存在PDF檔案中,财務人員希望能夠把每個員工的報賬單收集起來,并與其工資單和個人資訊整理到同一個檔案中,這樣就能自動地把報賬金額加入到下一次的工資發放中,同時,财務人員對報賬單内容進行統計分析,了解公司的财務和業務情況。
假如我們現在有如下PDF報賬單(圖一),要将其中關鍵内容提出,整理成如圖二所示Excel中标準結構資料。主要分為以下步驟:
PDF格式的報賬單樣本:
利用Monarch提取形成的行與清單格:
Altair Monarch解決方案:
(1)打開Altair Monarch軟體,打開後首頁面如下,點選OPEN DATA并選擇PDF&TEXT,輕按兩下其中的PDF Report。選擇PDF資料來源,導入資料。
(2)自動或手動抓取資料和合并字段
在打開後的PDF報告界面中,有兩種方法抓取和合并資料與字段:
自動:在左邊模闆(Templates)中點選自動定義(Auto Define),軟體将自動識别關鍵詞,多數情況下自動識别可以滿足我們的需求。
手動:若需要手動定義模闆,則在頁面的捕捉内容框中輸入對應的關鍵詞就可以快速抓取PDF每頁的對應資訊并合并。
下圖是進行PDF資料資訊提取的界面,可以看出,我們在設定好提取規則後,資料很整齊的出現在界面的右下方。
(3)資料處理和轉換
完成上述資料提取後,可加載以行列标準化呈現的資料于資料準備 (PREPARE) 界面中。該界面包含了大量關于數值的操作,并提供資料表和改變曆史的追蹤,使每一步都清晰可查。也可以點選資料轉換 (TRANSFORM) 對其進行資料轉置、分組等。
(4)資料表合并和附加
點選資料表合并 (COMBINE) 可以選擇資料表的合并方式為左右連接配接或上下附加,通過簡單的表格拖拉即可完成多表的合并。
(5)資料表導出
通過Altair Monarch資料準備軟體,可以輕松解決PDF等非結構化資料的提取問題,并完美覆寫幾乎全部的資料處理和導出步驟,讓雜亂無序的資料發揮應有的價值!
-
寫在後面
關于資料處理這一塊大家還對什麼内容感興趣,歡迎在文後留言與我交流,也歡迎大家提出意見和建議。同時大家可以通過以下方式關注我們,申請免費試用軟體。