天天看點

AI研習丨智能資訊中的大資料和人工智能

作者:中國人工智能學會

文/李雲輝

一、大資料、人工智能簡介

大資料有三個要素,一是海量,展現在資料容量越來越大,以新浪微網誌為例,每天會有幾百TB的增量;二是速度,展現在資料量增長越來越快,使用者的規模增長越來越快,産品業務越來越多,使用者行為越來越多,這些都會加快資料增長速度和實時性;三是多樣,指的是各種類型的資料庫,如文檔、日志、視訊等。

人工智能 (AI) 的基本要素,一是算法,以統計學為主,包括統計學的模型,以及深度學習、神經網絡等一系列算法;二是資料,資料是算法設計訓練推理的依據,要做算法,前提必須有大量資料,尤其深度學習的場景,需要大量的标注樣本;三是算力,深度學習是混合的價值擷取方式,目前算力不夠。

現在萬物皆媒,随着5G的到來,機器也能生産新聞、創造資訊,搭建基于資料 + 算力 + 算法 + 網絡的基礎底座。大資料、AI驅動資訊智能化變革主要展現在網絡、資料、算法和算力四個方面。

智能資訊生态最下面是基礎層,包括晶片、傳感器、大資料、雲計算;第二層展現在由CV做圖像識别、分類、排重、語音識别,以及垂直領域裡面建構的知識圖譜,支援做垂直領域的分發和金融上的信用。最上面是應用層,從媒體的角度包括資訊采集,以及采集後的聚合生産、内容分發。還有媒資的管理、内容生産源的管理、内容安全風控的管理、效果的追蹤,以及媒體的經營、輿情的監控、媒體版權的保護等。

二、新浪大資料及AI應用實踐

(一)新浪大資料

下面從三個次元介紹大資料的應用。一是多種資料來源,新浪體系下大概有10家以上的APP,包括新浪微網誌、财經、新浪體育等,還包括第三方資料。二是多種資料形式,包括使用者的注冊資訊、媒體資訊、博文資訊、内容資訊;非結構化資料、包括使用者的行為日志、圖檔、視訊、音頻;半結構化資料指的是使用者的通路和請求,以及博文特征、内容标簽。三是多種處理要求,包括線上和離線,線上是實時處理,算法用的會更多一些,以及模型的訓練、線上模型預測、線上實時效果報表監控;離線包括批處理、機器學習,以及每天給高管看的各種經營分析營運報表。

• 大資料的基本組成體系,從下往上,從平台的角度來講,整合了新浪集團所有的業務相關資料,也可以了解為是集團的資料中心和平台。基于次元模組化思想面向主題、曆史、決策的資料倉庫,我們建構了資料平台,提供了大資料的傳輸,從前端日志的采集到實時、離線的采集,以及到後面實時的處理,為各使用者提供的基礎資源。第二層是對應的服務,面向不同業務類型、不同角色提供不同服務。比如,面向算法工程師,提供更多的是計算平台、存儲平台,以及外圍工具平台、資料排程管理等;面向營運、業務、分析師等更多的是提供更高效的查詢資料、統計資料自動化工具和多元的分析;面向産品提供KPI監測和每天經營的情況,以及大盤的名額、漲跌的歸因等。在服務上我們提供了一些産品,對内的工具和對外的商業化接口。從價值方面,可以提升内容的商業變現,也可以提升内部的效率、産品的優化和疊代。

• 大資料的流程架構,我們在開源體系上做了一些外圍工具開發,以及内部內建和優化。一是資料源,包括使用者産生的UGC資料、行為資料、内容管理資料。有了這些資料源後,前端伺服器采集到這樣的日志,最終通過實時資料存檔的隊列;再對應到中間部分的處理,通過叢集,一部分寫到離線檔案,一部分轉發到實時叢集;對應到處理方面,包括存儲、計算等。在此基礎上做了很多外圍工具,以及對應的存儲周期和存儲邏輯、上下遊的依賴等,都會在管理系統定位查詢。二是監控,我們會監控一些節點、任務,以及監控作業之間的效率,給使用者統一入口,通過網關方式登入通路存儲平台。

在存儲計算平台上搭建離線資料倉庫和實時資料倉庫,把這些結果實時處理完成,後面的應用就是在這裡進行機器學習、模型訓練學習、資料分析、資料挖掘、KPI報表、API服務等。圍繞大資料來講,标準化體系目前有幾個主流方向。一是實時和離線資料湖,這是目前的技術方向。資料要求的是實時處理,原來按天看報表,到後面按小時看報表;現在實時化看資料,到線上模型實時特征訓練,以及對應預測。實時化是大資料處理的方向,包括實時處理能力。資料量越來越大,處理資料越來越大,異構資料越來越多,怎樣搭建一套實時的資料處理平台和倉庫。二是面向更複雜的多元分析,首先定義分析次元,然後資料準備,再進行多元分析。随着業務的發展、使用者的營運等,對使用者深入的洞察、對整體的分析要求越來越深入和靈活,針對不同粒度、不同次元下能不能任意交叉,實時統計和分析。三是不同角色的處理效率可以有很大提升,包括資料ETL抽取、排程這些源資料,以及自動化查詢工具等。四是更多面向于圖資料,如微網誌就是有大量節點的圖譜。五是在大資料中,現在提的比較多的方向是資料資産、資料治理,有了這些資料,怎樣去評估它們的價值。作為企業來講,怎麼反映資料給企業帶來的價值,這個資料的成本、資料給商業和内部帶來的驅動;資料的資産不僅是企業内部的資料資産,還包含面對客戶服務的資料資産,以及資料的治理、資料的安全,怎樣保證資料品質一緻性、完整性和安全性,做好資料安全的風控。

大資料行業目前推進的趨勢和方向——實時數倉。我們的原資料是實時的,這些資料來自通路日志,比如通路了微網誌、看了某篇博文會上報一條使用者的通路行為資料;然後把後端的一些資料通過實時傳輸,進入我們的ADS、MDS、ODS。這和前面介紹的離線有一些差別,這裡會做一些結構化動作。比如,我想知道今天體育博文的閱讀量就會針對博文做分類和結構化,實時調算法的接口,再過濾一些條件、規則,同時按照産品、業務線進行分流;然後把一些使用者的次元,比如使用者的行為資料,與使用者的資料進行交叉,這時會進行實時過濾、處理。到MDS層,做一個相對顆粒度比較細的彙總,主要以使用者為總線,加上各次元統計使用者行為。ADS是面向于我們最後的高度彙總資料,根據相關的博文實時計算。現在從技術架構體系和平台來講,有依賴記憶體的,還有用搜尋機制去做的。統計出來的次元相對比較明确,這時次元要做實時多元分析。現在放在ES裡去做,能做到10億+的使用者、上千維特征任意的交叉統計,大概在100毫秒以内。還有比較明細的資料,使用者是無感覺的,會根據使用者送出的不同業務類型自動分發到不同的分析引擎進行分析,最後通過計算和分析引擎回報到使用者。對應在做實時熱點的發現、内容消費的洞察,這方面主要是智能媒體和數字化的營銷。

(二)AI應用

新浪集團體系内大資料的應用規模,包括新浪集團所有子公司和各産品線的研發、産品、營運,同時在使用這個産品進行日常資料化驅動。圍繞大資料的能力,以及大資料的一些資料平台,結合我們的業務、算法做了哪些AI應用?

新浪是一家媒體,落在智能資訊平台上,主要分為熱點發現、内容編輯、稽核擇優、産品形式和智能傳播五個環節。發文章首先要有配圖、文字糾錯;如果發話題要有摘要、事件的詳情脈絡、資訊流裡自動的标題、内容的聚合、輿情的觀點等;稽核需要做的是安全、敏感的稽核;分發主要包括個性化分發,以觀衆體系下社交下的分發,還有營運導向的熱點分發。現在我們的生态是多終端的,既可以在APP上看到,也可以在手表、智能音箱上看到新浪提供的内容。

1. 線索發現

新浪早期是門戶,後變成部落格,随後有了微網誌社交媒體,最後是新媒體的個性化,到目前既有社交又有新媒體個性化綜合的資訊平台。帶來的最大變化是内容底層、内容生産者在變,原來有數萬的PGC,到現在數百萬的自媒體,再到現在的視訊化、社交化,如何從海量資訊裡篩選出使用者關心的重要新聞線索,是内部營運面臨的很大挑戰。新浪 + 微網誌是很大的優勢,全網的熱點一般都是在微信或微網誌上先進行傳播,形成一個全網級的發酵一定是微網誌帶來的更大傳播,是以能知道熱點事件所有傳播鍊路。我們總結編輯營運經驗,從業務資料化到資料特征化、到特征實時處理、到AI模型,最後是人工稽核。作為一個資深編輯,其經驗是建立在每天發生什麼樣的事情,記下發生的時間、地點、場所,以及帶來的影響等,通過曆史資料可以判斷這件事情會不會有熱點。結合這些邏輯、模型會把這些資料源(包括全網的資料),以微網誌資料為核心,包括新浪新聞媒體的資料做結構化,對事件進行識别;還會針對博文的統計特征進行分析,傳播的鍊路、賬号的屬性和内容,什麼時間發的,它們之間是什麼關系,是不是傳播節點、引爆節點,以及對應的行為;對應的行為及對應過程中有沒有大V評論,進而就建構了一些特征。根據這樣的特征建構熱點分析和預測,就可以看到是一個什麼走勢,以及對統計走勢的判斷。營運再進行線索的稽核,稽核完成對應到熱點的營運。

我們内部使用的大資料賦能熱點實時發現平台,現在做到每分鐘基于微網誌全國量的資料,如重要的産品使用者名額,與過去30天異動的指數,結合使用者的畫像,知道哪些使用者關心的熱點和不同地域下使用者關心的熱點是什麼,以及他們關注的詞彙是什麼,點了這些詞雲後就知道有哪些熱點博文。對熱點博文的排序、當下最熱博文,以及對應熱門博文的使用者畫像等,輔助營運第一時間發現熱點。

例如,巴黎聖母院大火。這個事件涉及到60+領域、5000+頭部使用者參與,全部使用者發博300+萬、曝光40+億。這個熱點有很明顯特征,10分鐘内博文量超過平常的3倍多。根據使用者在後續有沒有興趣關注點的變化和遷移,我們有很多熱點延伸,希望給使用者提供更豐富的内容服務。

實時熱點的發現從内容源頭能夠監測前面所有線索、突發熱點,人工稽核完成後一鍵釋出、自動稽核;然後直接看到下發大屏效果,以及各人群效果,再調整内容下發的政策,這是全鍊條邏輯。

2. 内容生産端

内容生産平台算法分為NLP和CV兩部分,文本能力主要是做語言模型和語義了解。我們會做一些自動糾錯、錯别字識别,這些模型也在做這部分的訓練學習。任務是以分類識别為主,如做了圖像的分類、人臉識别。基于兩種場景,一是圖檔建構了百萬級别的語料庫,包括視訊的排重;二是基于上面這些平台,做自動标題、文章配圖、主題識别、摘要提煉、糾錯排重等。視覺能力主要是圖像品質、圖像美學、視訊清晰度、視訊品質、裁剪、智能配圖等。

模型算法案例一 文章自動配圖。因為是新聞場景,上面需要有一些配圖,機器配圖是一個很複雜的事情,來源文章内所有圖檔,政策會進行圖檔的品質、分類、裁圖等。配圖是很複雜的模型,首先做識别判斷,比如一幅大圖裡有很多文字不适宜作配圖;低質的圖形識别出來要過濾掉。我們有一個百萬級别的圖像庫,對圖檔打一個美學分數,配出的圖不能重複,是以要進行指紋排重。早期可能用各種特征去做,篩選後看一下文章和标題的相關性。用多模态去做動态相關性模型,可以學到哪幅圖與标題相關,最後用美學和相關性做綜合排序,輸出侯選可以配圖的topN。在裁減時還要識别出圖檔主題區域,将人臉拿出來單獨做人臉模型,裁減完成後會在前端根據落地的業務場景進行自配。

模型算法案例二 視訊标簽。視訊标簽有一定難度。我們有百萬級的标簽體系,希望一篇視訊打出來它屬于哪個領域、哪個主人物,以及對應哪個IP,落地到相關推薦,根據人物推同一人物、明星,以及視訊的合集。視訊标簽采用了多模态技術,現在我們有圖文特征、标題特征和音頻特征等千萬級樣本。最後是多任務的學習方式,進行特征抽取網絡,希望有一個對應限制。現在已經做到第三個版本,準确率在85%的水準,一級可能會高一些。

模型算法案例三 機器新聞。人工先定義出模闆,深度學習在這裡主要做預測工作。原始資料來源于全網重要資訊、财經第三方資料和微網誌資料,比如體育比賽在什麼位置、有什麼樣動作,這些都是人工梳理出來的模闆,由這樣的句式和模闆生成這篇基于前面采集到的資訊,根據句式模式生成句子侯選和段落侯選,進行表述銜接。我們會有一些表述銜接的語言生成,主要落地在财經和體育方面,包括财經快訊、行情股市資訊、直播間和賽事結果資料等。

3. 人工稽核

人工稽核采用的是多模态識别。這裡網絡結構是類似的,通過底層各内容來源做識别,識别出來後會有人工二次稽核工作,判定最後問題的歸類,進行人工幹預。

4. 分發

稽核完成後進行分發,第一部分是使用者;第二部分是物料。使用者畫像是基于新浪集團所有打通的資料;物料包括營運熱點、營運專題,以及視訊垂直領域、圖文、音頻等;場景包括地理位置、時間、網絡、産品位;分發包括營運分發、搜尋分發、個性化分發和關注分發等。

5. 推薦

我們産品有個性化推薦、相關推薦、視訊推薦、主題推薦。推薦的架構在行業内都是标準的東西,主要差別是實作邏輯、模型、政策、物料不同。總體上,資料收集到大資料平台做樣本拼接、模型訓練。我們主要做的是使用者請求,把使用者在曝光時有哪些特征,比如性别、年齡、地域的統計學特征、使用者興趣的統計學特征,以及使用者在最近一段時間各時間段、次元、産品、行為下的點選,這些都要收集進去,代表當時是什麼原因給使用者曝光文章;還包括一級和二級分類、标簽,以及一些作者資訊,這兩部分拼進去了就可以回答使用者此時此刻請求的興趣有哪些,給他推薦哪些侯選。另外,因為有哪些靜态屬性、統計特征,是以進來了這樣一個侯選,以及在這一側交叉的比對;最後選擇排序邏輯。模型要學的就是這樣一個場景。我們要根據這個場景做拼接樣本、模型訓練和預測。對應的是線上推薦,一個是畫像類的;一個是召回類的,包括内容、模型、熱門、政策等召回,這裡重要的是要知道效果是否好。總之,從物料到召回、到排序,包括特征工程、模型訓練、線上預測和線上評估,這是業内比較通用的架構。

6. 召回算法

現在推薦的大家都認為千人千面,其實不然,推薦做的更多是滿足中短期興趣的推薦。召回算法主要分為三類,一是基于使用者畫像類。比如,我喜歡 C 羅,他喜歡足球,可以根據标簽做吻合,再根據表現的打分做排序。使用者畫像的召回核心在于使用者畫像的計算,包括基礎的資料倉庫裡做統計。現在畫像都是基于深度學習模型預測的,預測你的長期興趣、标簽是什麼程度。二是對應模型類,協同過濾用的非常多,網絡結構上包括後面的蒸餾;又要用到一些複雜網絡,想在雙塔上做,這時就用單塔的目标指引雙塔目标學習,後面會有一些多目标。三是政策類,各家公司業務政策不同,對我們來講有政策邏輯,評價有熱度、相關度、覆寫度等一系列名額體系。

7. 排序

排序發展階段,從早期經濟學的算法,廣告比較多,後面用到了多目标排序。常見的目标有點選率,還有一些是互動類評估(如點贊)。排序算法的路徑除了算法學習上有一個疊代外,還有在模型的訓練上有一個變化。在排序上的變化有幾個目标,圍繞多目标的路線發展,展現在特征個數。真正的挑戰展現在特征的實時處理能力,而且還要保證明時特征處理資料的一緻性,資料品質是影響排序算法的關鍵因素。特征越實時統計,訓練時與線上預測時的資料一緻性要保證相同,實時性越強,就有各種的客觀現象,能帶來各種延遲和不一緻,這是客觀存在的現象。

多目标發展的變化。原來我們多目标的技術,比如模型預估的機率和時長的值會做一個權重融合,很多是網絡搜尋、交叉組合完後把所有模型訓練學習一遍,選擇最優的放到線上,用這種方式做的組合。之後我們希望模型能學到時長融合的權重,模型線上學習參數,利用它做融合預測。發展到現在,用PSO方式做自動搜尋是現在做的主流方向。從多目标的網絡結構上講,每個目标都可以學,學完後進行融合。還有一種是用一個大模型學出多個目标後,再用多個目标融合,我們有這樣一個對應的單模型和發展。另外一個發展就是會有一些專家網絡共享,就是現在的多目标排序——排序結構變化、多目标網絡結構變化,還有多目标最後目标的調參變化。

比如,社會熱點案例——貨拉拉事件的引爆,再到媒體集體發聲到社會反思,我們怎樣服務好使用者,做好使用者分發體驗。

在疫情下我們也做了很多創新,從2019年12月31日一直到現在,經曆了各階段的發展,現在都是靠AI賦能,通過資訊采集,到自動化資訊聚合、解析,以及疫情專題的自動生成、疫情地圖的自動标注做了一些閉環查詢,以及很多可視化産品,如策劃了新浪疫情地圖,友善使用者能夠更直覺看到疫情的态勢。

三、新技術展望

如果沒有大資料要做人工智能無從談起,大資料裡需要一些流程和平台,以及落地一些應用。從面向統計型資料到分析型資料、價值型資料,我們都是通過資料化指導日常工作。調優能做到靈活疊代,這是必不可少的。圍繞大資料做AI,包含基礎平台、内容搭建、生産、聚合,到分發,利用大資料實時計算和算法的結合,賦能AI。如何做好内容生産自動化,以及個性化算法分發概況和關鍵點,怎麼去了解推進其邏輯和模組化思想。

未來與資訊媒體相關的方向是5G、視訊和區塊鍊,以及智能化分發技術。直播是新浪很重要的産品線,5G超快網速、超低延遲的特點更加有助于視訊化的發展。

從内容生産上看也是很明顯變化,從PGC到UGC、TGC,内容生産結構變的視訊化,而我們的需求沒有變,隻是需求範圍變大、深度變深,需要看更多、更豐富的内容。5G由PGC到TGC,比如可以看到元宇宙;還有智能冰箱本身也能産生很多資料,智能烤箱可以看到烤面包的變化過程,這些都是TGC所生産的。未來會呈現大資料很重要的環節,因為這些資料之間萬物互聯,量大,形态變多。還有各種網絡結構,如何挖掘中間的關系和聯系,都是很大挑戰,而且對深度學習、AI來講要求更高。是以,這個資料巨大,必須通過一些算法進行相關處理。内容消費場所的變化,生活中都有感受。現在最新的華為手機能測24小時動态血壓,使用者能看懂監測報告,這些成果都是5G帶來的機會。不同的新技術帶來新産品形态和新業務形态。

視訊方面主要是5G和視訊的結合,面向于高清、多元、低延遲,最大的展現是正在做的AR、VR,比如奧運會、互動式視訊、互動類視訊,視訊更清晰和高清,直播更流暢。

區塊鍊就是去識别原創文章和原創視訊,比如現在有很多的“搬運工”和抄襲,如何識别文章是否原創,可以通過區塊鍊的技術落地到版權。

新技術會推動媒體進入新紀元,展現在主流的價值觀。新浪的主流價值觀是傳播正能量,提供優質内容、深度内容,利用大資料、AI更多滿足使用者擷取有價值資訊,基本上就是全流程、全環節,數字營銷也是如此。商業模式在智能化産品裡,不管是内部數字化賦能,還是提供智能化産品都會帶來很大變化。技術管理+内容會帶來一些挑戰和發展。

AI研習丨智能資訊中的大資料和人工智能

選自《中國人工智能學會通訊》

2022年第12卷第2期

AI領域專業技術的轉移轉化

繼續閱讀