天天看點

借助SAP HANA實作文本分析和文本挖掘

文章講的是<b>借助SAP HANA實作文本分析和文本挖掘</b>,2014年4月10日-12日,第五屆中國資料庫技術大會(DTCC 2014)在北京五洲皇冠國際酒店拉開序幕。在為期三天的會議中,大會将圍繞大資料應用、資料架構、資料管理、傳統資料庫軟體等技術領域展開深入探讨,并将邀請一批國内頂尖的技術專家來進行分享。本屆大會将在保留資料庫軟體應用實踐這一傳統主題的基礎上,向大資料、資料結構、資料治理與分析、商業智能等領域進行拓展,以滿足于廣大從業人士和行業使用者的迫切需要。

借助SAP HANA實作文本分析和文本挖掘

  自2010年以來,國内領先的IT專業網站IT168聯合旗下ITPUB、ChinaUnix兩大技術社群,已經連續舉辦了四屆中國資料庫技術大會,每屆大會與會規模超千人,大會雲集了國内水準最高的資料架構師、資料庫管理和運維工程師、資料庫開發工程師、研發總監和IT經理等技術人群,是目前國内最受歡迎、人氣最高的的資料庫技術交流盛會。今年是中國資料庫技術大會五周年,大會将繼續秉承分享IT最佳應用實踐的宗旨,圍繞傳統資料庫和大資料兩條技術主線,在目前IT技術和管理快速的大背景下,更加深入地探讨資料庫技術的現狀和未來的發展方向,以及我們在這個轉型過程中的實踐經驗和教訓。

借助SAP HANA實作文本分析和文本挖掘

▲ SAP中國研究院項目總監董玢

  十幾年來一直緻力于資料內建領域的工作,自2010年帶領并參與了10多個基于SAP HANA的産品及客戶項目. 2005年加入SAP,在此之前任職于德國海德堡大學,負責資料倉庫開發工作。大學畢業于北京郵電大學,後獲得德國Ulm大學計算機系碩士學位。

  資訊爆炸的時代,産生很多的資料,通過對資料的分析了解發生了什麼事情,為什麼會發生這種事情。  每天産生的資料80%都是非結構化的資料,比如郵件,短信,圖檔,語音等。過去由于軟體和硬體的限制,對于這些資料的挖掘比較滞後。現在硬體和軟體技術的更新,能夠實時的對資料進行深度挖掘。

  本講座将向您介紹SAP HANA如何幫助使用者解決好文本分析,以及如何結合R語言和SAP HANA自帶的預測分析函數庫來實作文本分析和文本挖掘。

  結合R語言 SAP HANA做場景的分析和計算

借助SAP HANA實作文本分析和文本挖掘

  可以和移動端結合在一起,做移動應用,也可以在雲端使用HANA。能對企業核心的流程進行加速,對傳統的ERP代碼push到HANA中,進行加速。HANA可以對計劃進行預測,支援和ESP一起處理流資料。

  在文本搜尋方面的架構

借助SAP HANA實作文本分析和文本挖掘

▲HAHA文本搜尋架構

  通過表的形式存儲,通過建立全文的索引,對整個表進搜尋。加上文本分析之後,進行語意的處理。建立索引之後,通過模組化工具建立搜尋模型。通過表的屬性建立一個視圖,然後确立其他的規則。

  在上層建立了UI Tookit,基于搜尋的UI架構,通過簡單的修改可以使用。也可以自己通過HMTL5做開發。與HANA互動通過擴充的應用服務。

  建立文本搜尋的幾個步驟

借助SAP HANA實作文本分析和文本挖掘

  基于SAP HANA建立文本搜尋需要遵循如上幾個步驟。

借助SAP HANA實作文本分析和文本挖掘

▲InA家族說明

借助SAP HANA實作文本分析和文本挖掘

▲HANA 預測分析庫

  預測分析庫用于文本挖掘使用,其中包括了所有的通用的算法,做分類,聚類和關聯性的算法。這些算法在HANA中通過C++實作。

借助SAP HANA實作文本分析和文本挖掘

SAP HANA+R

  SAP和R是一個很好的結合。R是一個很好的工具,包含了很多的算法,在很多場景進行補充和HAHA結合使用,在HANA中處理的資料在R中運作,然後再傳回HAHA,通過R可以做算法的加速。

作者: 景保玉

來源:IT168

原文連結:借助SAP HANA實作文本分析和文本挖掘