極測未來|淘寶&quot;千人千面&quot;内容下的智能評測技術與實踐背景挑戰個性化評測素材品質管控擴充—無線CVT測試總體展望

作者|淘寶内容導購測試團隊

出品|阿裡巴巴新零售淘系技術部

背景挑戰

全面個性化、内容化的淘寶，構造了基于内容的豐富的導購場景，包括猜你喜歡、有好貨、每日好店、必買清單、哇哦視訊、微淘、買家秀、頭條、洋蔥盒子….。個性化，給消費者帶來更精準的貨品分發。内容化為消費者帶來更多驚喜和好的體驗，“好的商品，應該以更好的形式展現給消費者”。

不同于傳統測試業務，導購業務非确定性的輸入輸出，給品質工作帶來的兩大挑戰，接下來會從這兩個方面介紹：

使用者側--千人千面導購推薦系統如何評估
平台側--多來源，多類型，高标準下如何高效管控素材品質

個性化評測

1.多元評估體系

推薦系統模型研發過程包含離線特征處理--模型網絡設計--離線訓練--離線預估--線上部署-- ab 實驗--模型優化。

通常的評估手段包含兩類：

離線預估：從算法模型視角，包含 auc、f1score、precision、recall、NDCG 等名額
線上評估：從業務效果視角，包含點選率、轉化率、互動率、pv、uv 等名額

以上兩類評估手段在使用者體驗方面存在不足，會産生中長期使用者體驗诟病，比如買了還推，全域趨同等。基于此，我們從五個次元定出了對于導購推薦全局評估名額體系：

豐富度：包含打散度、多樣性、覆寫率等名額，打散度為例，指同一坑位或者同一頁面，圖檔主體，商品主體是否過于同質，是否有更豐富的商品推薦。
友好度：包含曝光過濾、購買過濾等名額，買了還推等問題也是使用者對電商類推薦系統诟病比較集中的地方。使用者有比較，比價等相關延展性的消費訴求，但相比純内容推薦，使用者對電商類推薦疲勞度會更低。
相關度：包含相關性、發現性等名額。推薦系統普遍基于協同過濾政策，相關性對于短期比對效率和發現性對于中長期興趣、貨品挖掘，各有優劣，需要整體平衡。
可信度：除涉黃、涉政等紅線标準，淘寶對于素材是否真實準确描述貨品要求極高。包含标題黨，主體糅雜，主體模糊，不完整，切割等。
美觀度：牛皮藓、構圖布局，惡心主體等，比如特寫牙齒病，皮膚病等素材不适合在首頁、會場等公域場景透出。

2.統計學習評估流程

确定了評估标準，評估流程包含以下幾大步驟，通過模型測試集輸出推薦結果，利用統計學習方法，進行名額自動計算，各名額相關性分析，進行整體業務評估度量。

為什麼采用統計學習方法：

更精準的名額刻畫：比如推薦商品打散度，服飾和箱包vs服飾和家裝，從傳統規則（類目、标簽等）分類，他們是一樣的差異，但運用word2vec，映射到高維向量空間，能更精準地去刻畫距離，用于打散度和多樣性等名額計算。
多元度的全局評估：整體名額好壞是一個非凸優化的問題，各名額間有互相的平衡關系，每一個場景在不同業務階段，關注的核心名額也會存在差異。需要通過統計學習的方法，進行相關性分析，因子分析等，在幾十個名額基礎上形成置信基線的全局評估。

例：下圖為某導購場景評測名額相關性矩陣，橫縱分别為各評測名額，例如在某一個階段，A名額和X名額正線性強相關，卻和Y名額負線性強相關。需要對評測名額進行綜合統計分析，才能對導購系統做出合理性的評估。

3.目前結果

基于5個次元，建立多評測名額計算服務，産出名額合理性置信區間基線，運用于日常導購和大促會場等個性化評測。在淘寶大促個性化會場，及時發現打散不足、推薦不足、重複推薦、推薦趨同、視覺同圖等5類，250+個性化會場問題。提前優化，第一次評測整體通過率90%，通過多輪輪評測驗證，會場上線前整體通過率提升到99%。

素材品質管控

1.淘寶素材品質标準

電商平台素材包含商家商品釋出、招商報名、導購選品、達人創作等來源，文本、圖像、商品、内容類等類型。素材品質對于使用者體驗、增長轉化、平台品質都起到重要作用。而在這其中，圖像（圖檔、視訊）作為體驗表達的重要媒介，是我們重點管控對象。

電商類業務在素材品質标準上，有以下三個特點（以某會場商品白底圖部分基礎規範為例）：

（1）素材資訊表達要求準确：避免圖檔與實物不符，誤導使用者，包含主體完整，單主體，無模特等要求。

（2）高品質圖檔轉化效率更高：feeds流下使用者視覺輸入的資訊量大，精美，布局合理的圖檔更能脫穎而出，有更好的轉化，平台也能提供更好的使用者體驗，包含牛皮藓、純白底、無陰影和摳圖等。

（3）不同場景顆粒度差異：比如商品主圖的牛皮藓，在公域會場和成本效益營銷場景，标準顆粒度不一樣（輕微可接受、輕微不可接受）。

2.素材品質管控方案

是以素材品質管控方案，需要考慮不同場景檢測能力能夠快速生成，甚至是能夠讓業務營運同學參與進來。基于此，淘寶内容導購品質團隊與淘寶基礎算法團隊合作，基于多任務共享特征網絡模型，建構圖像品質檢測服務方案--水滴。通過快速圖像檢測能力生成，解決不同場景劣質素材品質營運的問題，提升素材品質和使用者體驗。

整體方案：

将模型訓練研發過程樣本擷取，特征處理，建構訓練模型網絡，參數調優等工作通過共享模型訓練和統一平台方式消減。快速、複用、靈活泛化的多模型産生。例：牛皮癬檢測模型1，牛皮癬檢測模型2，牛皮癬檢測模型n…，并通過持續樣本調整，建構營運業務标準和模組化橋梁。

共享模型政策特點：

多任務共享特征提高識别效率：多任務遷移學習網絡模型，各個任務共享基礎特征，減少基礎特征重複計算，提高預測效率；多任務網絡模型，各個任務共享基礎特征，可以減少深度網絡模型對各個任務的訓練資料量需求，比如對于牛皮癬、logo、水印等高度相似任務，特征具有高度相似性，可以顯著提高各任務識别精度。但當任務間相似程度不是很⼤情況，會增加模型的拟合難度，為此我們采⽤ CurriculumLearning 訓練政策、從簡到難逐漸進行網絡學習，同時模型上也結合半監督正則項，充分利用了海量無标簽資料，進一步提高精度。
極測未來|淘寶&quot;千人千面&quot;内容下的智能評測技術與實踐背景挑戰個性化評測素材品質管控擴充—無線CVT測試總體展望
噪聲樣本識别提高模型精度：循環學習政策識别噪聲标簽樣本，提高訓練資料品質，進而提高模型最終識别精度；詳見論文《O2U-Net: ASimple Noisy Label Detection Approach for Deep Neural Networks》，已被 ICCV (國際計算機視覺大會)采錄。

為了提高模型最終精度，深度網絡對于訓練資料精度要求很高，然而很多圖像品質任務都存在邊界定義模糊、難标注等問題，導緻訓練資料往往存在噪聲标簽，為了解決圖像品質資料難标注、噪聲問題，我們提出一種噪聲标簽識别方法：通過采用循環學習政策方法，使得模型反複在 overfifitting 和 underfifitting 之間互相轉換，網絡在這種學習過程中幹淨标簽樣本和噪聲标簽樣本會出現明顯的區分性特征，利用這種方法可以幫助我們很快找到那些訓練資料集中的噪聲标簽樣本，提高訓練資料品質，最終保證模型精度。

工程架構和運轉機制：

建立牛皮癬、多主體、模特衣架、低俗情趣、水印、二維碼等 40+ 劣質素材檢測模型，提供離線上檢測服務，周均 2 億+服務運作，對導購業務各類商品、内容劣質素材從供給端進行品質檢測，卡口治理，累計檢測出劣質素材 7500 萬+，并下線過濾。

擴充—無線CVT測試

除了用于素材品質整體管控，我們也在思考是否能将視覺技術引入測試領域，構造檢測斷言，用計算機代替測試人員的眼睛，這樣高效，精準（像素級）發現問題，自動回歸。基于此，構造了CVT--基于計算機視覺技術的自動化測試方案并落地實施。

基于feeds流的無線測試通常涉及到這些方面工作

多機多版本下适配測試
容災測試（當服務端或模型産生異常，兜底資料方案是否會正确透出）
異常檢測（是否出現空窗，白屏，錯誤提示框等）
視覺布局檢測（文字截圖，重疊，布局留白等，視覺要求像素級标準檢測）
性能測試（我們需要準确采集各機型毫秒級真實體感的渲染時間、可互動時間等）

通過目标檢測、輪廓提取、ocr、以及快速機器學習多任務模型生成能力，全面運用到以上上線前内部的測試工作中。

例：CVT适配自動化測試

例：CVT視覺異常檢測(空窗、白屏、錯誤框、模糊、截斷等...)

覆寫淘系大促會場、導購、二三方小程式、拍賣、阿裡衆籌等業務場景，運作總任務數5500+個，發現問題近100個，包括視覺還原像素級、空坑、多餘留白、文本覆寫、文本截斷、服務異常等問題。

總體展望

大資料系統品質評估需要業務、算法、體驗目标三位一體綜合衡量。數學思想、統計方法與品質工作結合，很好提升測試效率和科學性。我們今年會持續在更多品質領域，比如資料品質，素材品質營運，無線測試驅動，去深化演進品質體系，為使用者帶來極緻的體驗。

One More Thing

就是現在，淘系技術品質部--測試開發崗，期待你的加入！在這裡：可以經曆雙十一等超大并發場景、全鍊路壓測、海量的資料處理、人工智能算法等領域；涉獵業界最前沿的測試技術，我們的任何一點優化都将使數億使用者受益。

履歷投遞至：

[email protected]

更多技術幹貨，關注「淘系技術」微信公衆号~

極測未來|淘寶&quot;千人千面&quot;内容下的智能評測技術與實踐背景挑戰個性化評測素材品質管控擴充—無線CVT測試總體展望

背景挑戰

個性化評測

素材品質管控

擴充—無線CVT測試

總體展望

繼續閱讀

vsftpd dead but subsys locked 的解決方法

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

C++ 第十五周報告1--《冒泡法排序》

Shell程式設計——sort排序、uniq忽略重複、tr替換壓縮删除、cut指定删除字段、正規表達式元字元sort 指令uniq 指令tr 指令cut 指令正規表達式

筆試面試題目：滑動視窗(二)

Linxu常用指令技巧彙總

httpd服務的部署、啟動、配置和簡單優化一、部署二、啟動三、配置檔案

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

資料結構與算法（27）——排序（二）

nginx 安裝錯誤資訊解決

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希

極測未來|淘寶&amp;quot;千人千面&amp;quot;内容下的智能評測技術與實踐背景挑戰個性化評測素材品質管控擴充—無線CVT測試總體展望

背景挑戰

個性化評測

素材品質管控

擴充—無線CVT測試

總體展望

繼續閱讀

極測未來|淘寶"千人千面"内容下的智能評測技術與實踐背景挑戰個性化評測素材品質管控擴充—無線CVT測試總體展望