天天看點

資料上雲,AI驅動,寶寶樹如何服務千萬年輕媽媽

寶寶樹大資料總監 劉玉石

本文講述了寶寶樹通過阿裡雲大資料平台建構了個性化的大資料架構,并在此基礎上使用AI和深度學習技術實作了一些業務工具,進而支撐業務展開,實作業務價值。

資料上雲,AI驅動,寶寶樹如何服務千萬年輕媽媽

寶寶樹是中國非常知名的母嬰品牌,也是中國最大最活躍的母嬰社群之一,我們的整個月活使用者達到1.39個億,移動端的月活也達到數千萬。我們的主要使用者是寶媽人群,尤其是年輕的寶媽人群。

寶媽在整個育兒階段其實有很多的需求,這些需求囊括起來主要是4個。

第一個就是對于專業的科學的育兒知識的擷取。 我們知道育兒其實是一門學問,涉及到的知識是方方面面的,如何的把這些專業的知識,通過非常大衆化的普及化的方式去傳達給我們的使用者,其實是一個很重要的課題。我們寶寶樹主要是通過非常專業的像PGC、UGC等編輯力量,把非常迎合需求的全面的育兒知識,通過各種方式易于讓寶媽去接受。

第二個就是寶媽人群其實情感非常細膩,然後有非常強的渴望去分享自己的育兒經驗,然後也特别願意與其他的寶媽去互動。因為我們知道寶媽之間的信任感是天生的,是以我們主要通過社群的方式去滿足寶媽的這種互相之間溝通交流、互助以及互動的需求。

第三個就是随着寶寶的長大,記錄是特别重要的一件事情,我們常說陪伴是最長情的告白,那麼對寶寶尤其如此,因為記錄不僅僅是記錄寶寶的成長,也記錄媽媽的成長,這種成長是雙向的,那麼這種成長對寶寶是一種非常特殊的禮物,我們是通過小時光和其他很多記錄的工具,去滿足使用者的這樣一種需求。

最後一個就是寶媽的購物需求,尤其是在某一領域,像奶粉、紙尿褲這些品類,其實是寶媽的一個剛需,我們提供了一個線上的商城,其實更重要的是我們有海量的内容,我們有大量的ugc的讨論,寶媽可以通過這些使用者的真實回報,去發掘去判斷什麼樣的品牌和什麼樣的産品是适合自己的小孩子的。然後其實我們能夠天然的通過一種社群的形式,建立起使用者和品牌之間的一種連接配接,然後解決很多産品品牌的核心的信任問題。

前面說了我們有4大核心需求,4大核心需求都是個性化的,我想滿足個性化的使用者需求,我們是需要通過大資料的方法和技術去做的。

資料上雲,AI驅動,寶寶樹如何服務千萬年輕媽媽

說到大資料,其實這是一個耳熟能詳的話題,很多人都非常熟悉,我就下面介紹寶寶樹所特有的兩個資料。

第一個就是關于媽媽的核心生育資料。什麼是生育資料?你目前懷孕多少天了,然後寶寶什麼時候出生,預産期是什麼時候,寶寶目前多大了,我們是可以精确到天的,然後這個資料是非常準确的。其實我們每天都會有很多寶媽使用者現在正在産房裡,等待生命的誕生。然後我們明天也會看到他們很多的報喜帖,其實基于使用者的一種真實的營運資料,我們是不需要猜測對吧?我們就可以非常精準的知道在這樣一個階段,使用者需求是什麼,然後有針對性的去滿足她們,通過一些産品或者服務。

第二就是我們社群有非常海量的UGC内容加PGC内容,然後使用者在這些内容上的行為,還有使用者之間的互動,讓我們積累了海量的行為資料。這種行為資料不是一種泛領域的,而是母嬰領域的,那麼這裡面有很多不是泛領域能夠解決的一些問題,包括媽媽之間的一些讨論等等,然後基于這兩大核心資料,我們可以建構一個非常完整的也是非常全面的某一領域的畫像體系。基于這個畫像體系,第一個我們會非常好的去服務我們的最大使用者,也就是我們的寶媽人群,第二個對于我們的B端客戶也是有巨大的價值,一個是提升整個商業投放的效率、轉化率等,另外一個就是我們可以通過反向的資料驅動,可以發現很多使用者的潛在需求,那麼這對B端客戶的營銷是具有巨大的商業價值的。

資料上雲,AI驅動,寶寶樹如何服務千萬年輕媽媽
前面說到我們大資料是滿足使用者個性化需求的基礎,那麼AI就是滿足個性化需求的核心,那麼我們整個AI在寶寶樹的應用主要是分兩大塊,一種是通過相對成熟的像搜尋推薦等技術解決内容的分發,像我們的主要是通過個性化推薦、Feed流,還有搜尋的方式去解決我們寶媽在不同場景下對不同知識,興趣型、收集型内容的一個擷取,然後我們做了很多事情,而且整個推薦的效果也獲得很大的提升,像搜尋也做了很多搜尋直達的一些事情,然後可以非常友善的一鍵觸達使用者想要的知識。第二個應用應該說是具有寶寶樹特色的,也是具有某一行業特色的。我們很多媽媽的需求其實是很特殊的,然後我們接下來會介紹幾個典型的,第一個就是我們的母嬰的專業的問答機器人,第二個就是我們的這個哭聲翻譯器,實時檢測判斷。
資料上雲,AI驅動,寶寶樹如何服務千萬年輕媽媽

下面介紹第一個就是母嬰特色的,我們做了一個母嬰領域專業知識的基于語音互動的一個問答系統。然後說到母嬰專業知識,我們很多人可能并不覺得這是一個非常高深非常龐大的領域。舉個例子,上圖左下角我們找來一本書,這本書是非常知名的,全世界非常知名,是美國兒科協會出版的一個育兒百科,然後非常的厚,大概有好幾百頁,這個囊括了從整個備孕懷孕,孕早孕中孕晚,嬰兒早期晚期整個也就從一歲以上兒童在不同階段面臨的發育、飲食、疾病、護理還有安全等等各個方面的内容,非常的詳細,然後這些内容其實是非常科學的,也是寶媽使用者所需要的。

但是現在作為一個普通的媽媽,我們大部分人是沒有這方面的醫學背景,然後不太可能說是去花很多時間去看這種厚重的書籍,然後去解決自己的一些實際的問題。

是以我們要解決的第一個問題,就是把這種厚重的、非常專業的,尤其是适合中國寶寶媽媽的一些特定的專業知識提煉總結,然後要大衆化普及化地,降低知識擷取以及知識了解的難度。是以我們有非常專業的編輯團隊,把這些豐富的母嬰知識把它結構化,然後做成一個知識圖譜的形式,然後同時把它結合現在相對比較成熟的問答系統設計的更新網絡系統,做了一個基于母嬰知識領域的自動問答。其實在這個階段我們已經解決了知識的結構化以及通過問答系統去擷取知識的問題。

第二個要解決的問題就是,有寶寶之後,很不友善用手去打字,如何更加便捷的去觸達需要的内容,更加友善的去互動。我們采用的也是現在很流行的,也是接下來可能會越來越重要的語音互動的方式。我們使用者隻要輸入一段語音,比如說寶寶發燒了你要怎麼辦?然後我們的系統會通過語音播報的方式告訴你,從技術角度講這就是一個相對比較成熟的整個ASR語音識别加TTS文字轉譯的過程。

資料上雲,AI驅動,寶寶樹如何服務千萬年輕媽媽
這樣我們就建構了一套某一領域非常全面非常專業的,基于AI語音互動的一套知識體系,其實這套體系我們的目的是不僅僅是為了服務好我們自己的使用者,我們的初心也是想服務更多的、平台之外的使用者。有很多平台的客戶,他有自己的小程式,他有自己的使用者群,他也會通過一些小程式等去觸達去維護他自己的使用者。在這一點上我們為了更好的把我們的母嬰領域的專業能力進行對外輸出,我們設計了一套語音的開發平台,那麼我們這個平台實際上是支援B端客戶去增加他自己的特有的一些專業的技能。比如增加他自己的一些特有的一些知識庫、一些問答等,然後對于開發人員來說,我們整個設計也是具有非常好的可擴充性地,可以降低整個二次開發的成本,這個裡面主要涉及到的一些技術,包括像意圖識别,像深度學習的一些檢索排序,以及大量的語音分析等技術,這塊我就不特别深入了,然後我們也和一些品牌進行合作,效果也是挺好的。
資料上雲,AI驅動,寶寶樹如何服務千萬年輕媽媽

另外再介紹一個挺有用也挺有趣的一個工具。

很多寶媽尤其是年輕的媽媽就是遇到自己寶寶哭的時候,其實是特别的手足無措,因為實際上寶寶為什麼會哭的這個事情比我們想象的要複雜一些。

在不同的情況下,寶寶哭其實表達的是不同的含義,因為寶寶其實也有很豐富的情感的,但是他隻會哭,哭是他和世界交流的唯一的一種方式。比如有的時候他是餓了,有的時候他是希望你去抱抱他,有的時候他其實是不舒服,有的時候想睡覺。其實哭聲它有不同的頻率,它有不同的節奏,這個裡面其實是有規律可循的,寶媽在社群、論壇裡面會跟我們回報說,這是她的一個苦惱。

為了解決這個苦惱,我們也想應用現在相對比較成熟的AI技術去解決這個問題。那麼從技術層面來說,這就是整個輸入是一段嬰兒的哭聲,整個輸出是哭聲的原因,以及我們建議的一個安撫的方式。它是一個相對成熟的輸入是一段語音,輸出是一個多分類的問題。中間的特征提取,還有整個神經網絡,我們是可以借鑒語音識别的技術的。其實在這裡我要說的是這個技術是相對比較成熟的,然後解決方案也比較清晰,但是落地其實是很困難的。原因是我們現在的深度學習技術是需要大量的語料去訓練的,那麼我們首先是缺乏這樣一個嬰兒哭聲的有标注的語料,我們從未聽說過有任何開源的資料,是以說為了建構這樣一個語料,實際上我們是需要非常大的人力物力的,是以這也是真正作為哭聲識别的最大的門檻,就在于你通過什麼樣的方式,去收集非常全面的嬰兒哭聲的語料,采用非常專業的各種标注,然後去驗證标注的準确性,進而才能保證我們整個訓練以及預測的準确性。我們當時也是有很多寶媽收集了大概有數10萬條資料,然後花了很長時間去做專業的标注,多方的校對,然後抽檢等等,保證了整個标注資料的準确性。然後我們篩選之後,很多寶媽反應這個也是非常有用的,同時也是非常有趣的。我們有自己的小程式,也有自己的小工具,大家都可以去試試。

資料上雲,AI驅動,寶寶樹如何服務千萬年輕媽媽

再介紹另外一個工具,其實也是針對寶媽,尤其是備孕階段的媽媽是非常有用的一個工具,就是AI試紙檢測,我們也可以叫排卵試紙檢測。整個備孕階段會慢慢買很多排卵試紙,我們可能自己要去百度一下,然後學習怎麼去看試紙的顔色。去判斷它是不是有效的,它是陰性還是陽性。其實這樣的輸入輸出也是一個非常标準的 AI問題,輸入是一個圖像,輸出就是你目前是陰性還是陽性。它的輸出也是相對比較簡單的一種多分問題。是以我們也去收集了大量的這樣一種标注資料。然後通過專業的标注想好去建構了很好的兩個資料集,然後經過訓練,訓練其實不是特别複雜,然後整個準确率挺高,大家都可以看看上圖大概有5條,大家可以看看它是陰性還是陽性,你們可以自己感受一下。我們通過這種工具的方式,幫助使用者降低識别成本,提高使用者的體驗。

從前面說的小樹機器人,還有第二個AI檢測哭聲識别。其實我們發現在某一領域,真正要把AI産生價值是需要和業務做結合的,然後站在使用者的角度要看看使用者面臨的一些實際的困難。這些困難我們認為主要是寶媽的困難,困難是不分大小的,然後去做一些貼心的工具,然後去幫助她們降低很多知識擷取、撫育小孩的一些成本和難度,我認為這個是站在使用者角度,使用者價值是非常巨大的。

資料上雲,AI驅動,寶寶樹如何服務千萬年輕媽媽

然後再介紹一下我們的一個内容的分發體系,我們前面講了整個使用者的四大核心需求的話,它是包括知識,還有一些ugc的内容、社群的讨論。其實我們的方法很多人相對比較熟悉,主要是通過推薦和搜尋的方式,主要解決人和内容的比對。中間我們會建構一套整個内容的一個母嬰行業的标簽體系,然後基于使用者的行為,我們可以把整個使用者的傾向、興趣打到人身上。然後在這兩個進行結合的時候,其實所涉及的技術也是整個推進的召回。我們有個性化召回,然後基于協同的召回,還有各種現代化的深度學習的召回的方式,排序也主要是基于深度學習排序方式。

我們的場景和正常的推薦場景有什麼不一樣呢?我們不僅僅是一個内容的,尤其是咨詢的一種消費場景,其實我們是希望給媽媽一種陪伴感,就是希望通過這種内容的方式,然後讓媽媽覺得育兒是一個輕松的、舒心的、非常愉快的過程。因為我們知道媽媽尤其是産後媽媽,為了很好的育兒,其實是有很多心理焦慮的。是以在這個階段其實我們要解決的第一個問題就是我們的内容,要看整個内容的情緒,内容的分布以及人的分布,是以我們包括标準體系,包括内容召回和排序體系,要特别考慮整個内容的一個适宜程度,内容後面所代表的情緒、溫度,一些寶媽在這個階段應該需要什麼内容,是以我們更傾向于跟使用者推薦一些更适合目前需要的、溫暖的、能夠激勵她向上的,然後讓他覺得從寶寶樹能夠獲得内心的成長,然後更加覺得是一件非常愉悅的非常幸福的事情。是以我們和正常的推薦體系是不太一樣的。

資料上雲,AI驅動,寶寶樹如何服務千萬年輕媽媽

然後再介紹一下我們整個大資料上雲的過程,我們也是阿裡雲的一個忠實的客戶了。我們之前也是自建的一套大資料體系,從資料的産生,資料的傳輸、存儲、計算,然後整個資料的服務,然後整個上層的應用,包括BI報表以及資料分析工具等,我們主要是自建的。基于各種考慮,大資料上阿裡雲之後,我們大部分是采用了阿裡的一些技術棧,部分還是用自己的。

大家可以看看上面那個圖,我們說幾點,我們覺得整個阿裡的技術棧和我們自己的技術棧結合起來,我們覺得比較突出的,或者說從開發者角度比較好的,第一個是DataWorks,一種一站式的開發平台,确實能夠增加我們的開發效率。其他的像Flink,我們從spark stream更新到Flink之後,那種流批一體化的方式,使整個開發效率也是有明顯的提升。

資料上雲,AI驅動,寶寶樹如何服務千萬年輕媽媽

像這樣使用阿裡雲的一些技術,我們總結起來,其實主要是有幾點收益:

第一個就是我們整個從成本角度,就從硬體的成本,從運維的成本,從整個操作的成本綜合評估下來,我們基本上可以節約40%左右。

第二個就是從産品角度,我們因為采用了很多阿裡的技術棧,這些技術棧對開發者來說還是非常友好的,确實解決了很多開發者長期以來面臨的痛點,比如前面說的DataWorks一站式開發平台,對我們的開發效率是提升比較明顯的。另外一個就是從雲計算的底層來說,我們可以很好的享受,包括它的一些安全性對,還有整個彈性、可伸縮性等。因為我們的業務有時候流量也是會突發,在這種場景下我們是能夠天然的享受雲服務的好處。

舉個例子,比如我們對GPU的使用,我們以前的話可能是自己購買的,然後現在可以按需的去使用阿裡雲的GPU,就可以很好的提升我們技術的使用效率。

謝謝大家!

更多大資料客戶實戰案例:

https://developer.aliyun.com/article/772449

首月199元開通DataWorks專業版+MaxCompute按量付費黃金搭檔:

https://dw-common-buy.data.aliyun.com/promc

繼續閱讀