小結資料标注初創公司低成本預算營運思路【轉自彭瀚的脈脈專欄】

起因：

前段時間跟天津濱海新區的一家AI創業公司聊了聊，期間也給對方拟了一份簡要的關于低成本低預算情況下實作較高品質、較大批量AI訓練資料傳遞（内/外）的營運思路。經常去思考相關問題确實能幫助對業務的了解和行業的認知不斷優化、加深。

我在此記錄下來，若參考此内容能或多或少幫到一些人，那也是極好的。

基本思路：

通過招人(數量、成本、品質)；激勵（績效、補貼）；優化（流程、工具）；算法等次元分析幫助創業公司實作較低成本預算下産出足以内外傳遞的優質大批量資料的一般方案。

一、節約成本招人：

小結資料标注初創公司低成本預算營運思路【轉自彭瀚的脈脈專欄】

坐班人數按預算和規劃做成本控制（建議：x人左右）。

```
遠端不限于天津。
           
```

學生和殘障人士團體是目前能夠上量的團隊中成本最低的，且已有友商實作。學生間拉新、傳播能力很強，且急需三方協定。坐班人員則進行學生的教育訓練及擔任“組長”的角色對其成效進行監管。

濱海新區周邊的中低端招聘缺口主要在【技工】、【銷售】和【客服】，僅生态城我所了解的就有人人車、酷狗、陌陌等公司的客服基地，再遠一些像58、滴滴等也都在。大環境下的裁員和降薪是他們尋求新機會的契機。而客服經驗也能夠對智能機器人、智能客服之類的業務提供一定幫助。

“營運1帶1或1帶多”主要指的是第3方資料公司常用的營運方式，每1個營運人員負責對接幾個标注團隊，營運人員對相應項目的傳遞負責。這樣，是以少量營運人員的管理成本來交換和管理大量團隊傳遞的資料。

二、激勵制度和流程優化：

小結資料标注初創公司低成本預算營運思路【轉自彭瀚的脈脈專欄】

加班/通宵補貼（原文檔有，此處筆者省略）

有的采标場景中，越細化的名額标準往往意味着越少量的作業量（和召回率），和更加精确的命中率。“标簽”越多定義越精确，規劃資料需求時可以先不用過多考慮label間的互相影響等因素。【例：我要識别衛生間的圖檔，那麼規定必須擁有“馬桶”、“浴缸”、“盥洗台”中至少一個label的“房間”才能算“衛生間”，而不是“我覺得這個可能算衛生間”。】

而有的采标場景正好相反，越“泛“的标準描述反而讓資料人員的操作速度更快。【例：“桌子”的采标速率一定比“方形的六腿木桌”快得多，模型也出得快得多。】是以對應的産品的需求規劃時，需要靈活判斷2和3的情況，甚至将需求引導成為2和3的場景。

“各項優化”牽一發而動全身，不同資料員們對資料标準的統一了解很重要，會對整個閉環流程的連貫性起到積極影響。同時，項目中靈活選用資料處理的方式也會幫助提高效率，比如：6個人，有的項目，1個人負責規劃1個人負責采集1個人負責清洗1個人負責标注……要比6個人一起做規劃、采集、清洗、标注……要快；但有的項目又完全相反。

三、工具輔助：

小結資料标注初創公司低成本預算營運思路【轉自彭瀚的脈脈專欄】

雖說是系統功能，但主要說的是一種方法上的優化。舉個例子：有一批切詞資料，我需要判斷它們是否表達某種情緒。ok，根據标準文檔，我發覺該情緒label下的分類注解比較模糊（或者是因為人生閱曆的差異，或者是因為知識認知的差異），和同僚交流意見也各執一詞。而且這批資料裡邊這樣歧義或模糊的詞句還有很多條，如果都截圖去問工程師（工程師給出判斷，讓他來對結果負責），可能得問到猴年馬月才能把這批資料做完。這個時候就有一種方法，或者說工具功能。即：讓單數個資料員來做同一批資料，比如3個人。給分詞添加0和1的分類标簽，如果認為它符合，選1，反之選0。最終從結果池中選取某分詞下大于等于兩個1标簽的為符合，反之不符合。再發散一下，主管或者相關領域擅長者可以背兩個或者三個1标簽（甚至1票判定權限），這種情況下不用限制資料員的人數也能得到最終結果，還能一定程度上規避資料員串通一氣胡亂标注。而且從選錯的人中也能很快摘出業務不熟練的人員進行補救教育訓練。同時，不需要“質檢”環節。或者說，這批需要标0和1的資料其實是先經過一次篩選的比較不太好拿捏的資料，比較容易判斷的可以直接打2入庫。或者根據實際情況再進更新原方法。這就非常有趣了。

資料的複用性對創業公司來說，在處理特征近似的模型時能夠很大程度節約訓練成本和提升整體流程的效率。目前就這一點似乎有兩個趨勢，聯邦和遷移。聯邦學習更多的是針對資料的保密性，多家共用；而就遷移學習，兩個預訓練深度模型所提取的特征之間的遷移能力可由它們對應的深度歸因圖譜之間的相似性來衡量。相似程度越高，從不同的預訓練深度模型中獲得的特征相關性就越大，特征的互相遷移能力也就越強。同時，适當采取有經驗的AI訓練師的意見（從什麼模型遷移，從哪個部分遷移），也會對效率的提升起到很大幫助。

四、一些補充：

有的玩家更願意去使用頭部公司的采标工具（如easyDL），殊不知你用了人家的平台/工具，不用在采标團隊上花費過多成本了，也友善了，但訓練的資料卻也填充進了人家的模型庫。誠然，這個完全看你對自有資料的态度決定，但下決心之前還是好好琢磨琢磨為好。

有的第三方工具公司應對這種情況，推出了定制化、私有化部署的服務。但受限于目前“認知智能”技術實作的進展緩慢，市面上更多的還是以“識别智能”場景為主要功能的工具/平台。諸如自動駕駛（>L3）和智能機器人（語義/情緒）之類的“強人工智能”産品則需要提煉更加精細化、人性化的資料，花費更加成熟的算法和更加漫長的周期來訓練模型進行喂養。

那麼，訓練自己的模型庫，或許算是一道必做題了。

小結資料标注初創公司低成本預算營運思路【轉自彭瀚的脈脈專欄】

繼續閱讀

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

9.spark Core 進階2--Cashe

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

淺談企業活動中進行資料分析的重要性

無人機--飛控科普

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

小結資料标注初創公司低成本預算營運思路【轉自 彭瀚 的脈脈專欄】

繼續閱讀

小結資料标注初創公司低成本預算營運思路【轉自彭瀚的脈脈專欄】