案例與解決方案彙總頁: 阿裡雲實時計算産品案例&解決方案彙總
産品介紹
新華智雲是一家緻力于通過大資料技術驅動媒體變革的公司,數芯是新華智雲推出的實時輿情分析平台,旨在滿足使用者一系列輿情分析需求。包括:對事件、新聞、媒體、人物、地域、機構、行業,甚至關鍵詞、熱門話題等的抓取、識别、聚合、熱度分析以及可視化展示等。
系統設計
網絡輿情是社會輿論的一種表現形式,通俗的說是人們通過網絡表達對某些社會事件的看法和态度。網絡輿情以事件為載體,以事件為核心,是廣大網民情感、态度、觀點的表達、傳播、互動以及後續影響力的總和。
一個輿情分析分析系統,主要解決的問題包括:發現事件、跟蹤事件、發掘觀點、評估影響力等。
- 系統挑戰
- 輿情分析系統需要對接多個上下遊
- 資料上遊:爬蟲資料和采購資料。爬蟲采集不同資料結構類型的平台資料。
- 資料下遊:寫入不同的存儲系統。如統計結果寫入RDS,清洗後資料寫到OTS中,文章存儲到ES中做索引等等。
- 資料處理過程包括資料清洗和資料統計
- 清洗過程既有基于規則的資訊抽取,又有基于算法的實體識别。
- 統計過程需要先把資料結構化拼裝,然後按照各種次元進行靈活的統計。
-
具有自我疊代的能力
設計良好的輿情分析系統應該具有自我疊代的能力,能夠根據曆史資料進行優化,不斷提供系統效能。
- 輿情分析系統需要對接多個上下遊
-
系統架構
大資料輿情分析系統架構圖如下。
基于實時計算(flink)打造輿情分析平台——新華智雲産品介紹 - 輿情規劃是整個系統的控制器,控制着輿情發現的目标、資訊源等;
- 資訊擷取是輿情分析的基礎,能夠快速、準确的擷取足量資訊是系統成功的前提;
- 資訊處理與算法部分是輿情分析的關鍵,擔負着把原始資料加工成資訊與知識的重任,并且對歸檔後的資料進一步分析能夠發現系統問題、發現新的事件和新的模型,能夠進一步提升系統效果;
- 最終的資訊要服務的形式的暴露出來,為人所用;
-
資訊處理
數芯平台的資訊處理部分如下圖所示。
基于實時計算(flink)打造輿情分析平台——新華智雲産品介紹 - 資料來源(注:資料采內建功後統一釋出到DataHub中)
- 爬蟲:實時的去各大網站、微網誌、微信等内容平台抓取資料。
- 從其他機構采集資料。
-
資料處理
實時計算訂閱DataHub然後進行資料處理。資料處理包括兩個重要的部分:實時資料流和算法服務API。
-
實時資料流
通過實時計算串起整個實時資料流,總體包括對資料進行清洗、提取目标,整理成結構化的資料,然後按照所需次元對結構化的資料進行聚合。并且要把原始資料、結構化的資料、彙總的結果都釋出到下遊存儲系統中。
- 資料清洗:對爬蟲抓取的資料進行清洗,比如垃圾過濾、文本去重等。這一步通過實時計算提供的UDX(自定義函數)來調用算法服務API來完成;
- 目标提取:從已經完成清洗的資料中抽取出感興趣的目标,比如抽取實體(人物、地點、事件等),對内容的情感評分,抽取文章關鍵詞等,這一步的目标是從非結構化的文本中抽取結構化的資訊;
- 結果聚合:對已經結構化的資料按次元聚合,比如某事件的按天計數,某新聞的傳播熱度等。最終把這些聚合資訊聯合原始資訊分别寫到下遊存儲中去。
-
算法服務API
預先訓練好模型,把垃圾過濾、文本去重、實體提取、情感打分、關鍵詞提取等暴露成API服務,供實時計算調用。
-
-
資料存儲與服務
RDS儲存聚合資料,OTS儲存原始新聞,ES對新聞建立索引,提供搜尋服務,這三個資料存儲直接為最終産品服務。
- 資料來源(注:資料采內建功後統一釋出到DataHub中)
總結
數芯之前資料處理部分使用的是自建的spark,需要自行運維和對接各種上下遊系統,遷移到了阿裡雲實時計算平台,整體收益包括:
- 運維成本:免運維,阿裡雲提供高保障。
- 對接上下遊:直接注冊,免開發。
- 開發成本:SQL開發,效率高,門檻低。
- 資料流:一個産品串起整個資料流,ETL用UDX,統計用SQL。
從更高的次元上看,這個案例屬于實時ETL場景,實時ETL的目标把資料從a投遞到b,中間進行清洗、格式轉化、資訊抽取等。如果對吞吐、實時性有一定要求,可以在方案階段優先考慮實時計算産品。
注:本文部分内容來自新華智雲工程師楊叢聿的分享,特此感謝。
如果您有需求,歡迎聯系付空。