天天看點

AI大模型折疊:資料标注“民工”月入不過5000,單價從5毛降到4分

AI大模型折疊:資料标注“民工”月入不過5000,單價從5毛降到4分

AI大模型折疊:資料标注“民工”月入不過5000,單價從5毛降到4分

  Tech星球(微信ID:tech618)

文| 王琳

封面來源| 圖蟲創意

鄭雯至今覺得記得幾個月的下午,那天,她一個小時就賺了2毛錢。她畢業于湖南的一所專科學校,是一名大模型資料标注師,每天的工作并不複雜——給自己領取的原始資料(如圖像、視訊、文本等)添加标簽。

但大模型對于資料的品質要求很高,那天當時一張圖檔被要求反複修改了8次才通過,整個修改過程花費了一個1小時。也就是說,她這一個小時隻賺了2毛錢,而正常情況下可以賺到12塊,可以拉600個框。“錢并不好賺”,她反複強調。

這幾乎是所有資料标注從業者的共識。資料标注的一端承載着從業者們不足5000元的月薪,他們如螞蟻雄兵般建構起大模型的基石。而另一端則是網際網路大廠們的AI夢想,他們希望借此超越Chat GPT 4。

資料标注采用最原始的計件制算工資,并不存在職場上的勾心鬥角。唯一的苦惱這份過于枯燥的工作,讓他們中的大部分很難堅持完3個月。并且,幾乎所有人都告訴Tech星球,你最好别去。

可他們不知道的是,要不了多久,他們中的大部分可能會失去這份枯燥的工作。因為,那些簡單的資料标注将會被AI取代。

從5毛到4分,價格暴跌

林雙在2017年賺到了一筆“快錢”:15天6000多元。對于專科畢業的林雙來說,這個收入着實可觀。那是人們對AI期望爆棚的時候,幾乎沒有人懷疑過它的未來,所有的投資機構都堅信這裡可以誕生十億、百億甚至千億規模的企業。

幾乎所有AI技術的背後都是算法、算力、算據的競争,龐大的資料是技術優劣的底層。背景光鮮的程式員們坐在“北上廣”的辦公室裡,通過代碼疊代算法描繪AI藍圖,而大專生、寶媽等在三四線城市的格子間處理龐大資料包中的圖檔、文字、語音等。

ChatGPT也不例外。一位百度文心一言項目組的員工稱,大模型本身并沒有什麼新技術,也沒有太高的技術壁壘,關鍵的問題是算力壁壘形成的參數壁壘。

大模型時代的資料标注員和以前的也并沒有特别大差別,為數不多的差距可能是更加舒适的辦公環境和對标注品質的更高要求。一位資料标注的從業者向Tech星球介紹,一般剛剛入行時,他們會組建一個10人左右的團隊,這其中有一個人承擔質檢工作,如果不合格,就要員工打回去重做。而資料的品質則決定着大模型的優劣。

資料民工們也并不關心,AI技術又有什麼新的分支,他們更在意的是單價,因為這裡是計件算工資。

“那會兒單價高的時候,拉一個2D框就有1毛多,我最高的時候幹了10多個小時,一天就賺了600多元”,林雙回憶道。不過,這不是最高的,一位标注人員稱,早期2D拉框的價格最高能達到5毛錢。

拉框是資料标注中常見的一種操作,标注員根據要求對圖檔中的物體,如車輛、紅路燈、障礙物等畫框标注。拉框分為2D和3D,後者的價格會更貴一些。

但這種熱度并沒有持續多少,伴随着越來越多人湧入以及AI行業整體發展的不夠順利,标注一個圖檔的單價越來越低,林雙稱現在最低的隻有4分錢。

“如果是拉框,行業的平均單價是在0.15元左右,但還是要看項目,如果自己可以接到單,接到一手單的最低要求應該是100個入職員工,那規模挺大,3D的框有可能達到3毛錢一個,不過很少可以有達到5毛的。”

當然,如果你本身具備醫療、金融方面的專業知識,那麼單價則會更高。比如,很多醫療大模型會要求标注員有是臨床專業,且有相關從業經驗。

大部分從業者每個月的收入都不過5000元,其中也不乏少數的幸運兒。楊碩本來在四川經營一家服裝店,但疫情影響了他的生意,他在今年轉型做大模型資料标注,現在,他每個月有8000元收入,“我是和公司簽了合同,交了9500元的加盟費,合同裡寫着每個月最低收益是7000元。”

究竟誰賺到了錢

阿裡、騰訊、位元組這樣的網際網路大廠,以及上汽、領克等車企是資料标注業務分發的源頭,想要以最好的價格直接從源頭擷取訂單,資料标注公司們需要具備一定的規模。

一位資料标注公司員工對Tech星球稱,他們直接從大廠拿到訂單,但是大廠要求他們得有500人,是以他們會選擇通過加盟或者子公司的方式來達到人員要求。

二者的差別是加盟适用于初入行的人組建工作室,如果要成立子公司,一般一個區域就隻有一家。小白工作室需要收加盟費,2.5萬或者3萬。子公司是一個區域的獨家代理商,需要繳納5萬費用。而他們可以三年以内保證訂單的充足,并負責3年内的技術教育訓練,這些工作室或者子公司們組成一個大的工會,幾百到幾千不等。

上述資料标注公司員工稱,大模型的火熱再次将資料标注行業推上熱潮,現在幾乎每天都有人去他們公司拜訪。

但事實上,經營一個資料标注公司并不容易。資料标注公司告訴你的是,這個行業前1到2個月比較難做,因為員工需要爬坡期,前期隻需要5-8個人就夠了,40多歲的阿姨都沒有問題的。

穩定是資料标注公司或者工作室最重要的因素。但是Tech星球接觸的大部分标注員工往往都因為枯燥無趣在3個月内“光速”離職,新員工并不是馬上可以到崗實操,人員流動性大的結果就是資料标注的品質和周期不夠穩定。缺錢的寶媽是資料标注工作室最喜歡招納的人群。

“找兼職肯定不行的,會有空檔期,房租和電腦投入了,會虧錢,最好的方式是全員坐班”,開過資料标注工作室的人魏銘向Tech星球介紹。

大部分資料标注公司的回款周期是3個月起步,最多半年,但他們需要以月付的方式給員工工資,這需要一定程度的資金儲備,“一個人3500,100個人,3個月就是105萬。”

張建曾經加入過一個又200多号員工的工會。第一年,他們趕上行業的爆發期,2D拉框的單價高達5毛,那一年他所在的工會賺了400多萬。

但是第二年,行情急轉直下。标注的單價變低,員工的流動性更快,空檔期增加,再加上兩個大項目都沒有結算,一整年過去,他們虧了300多萬。“老闆都說短時間内堅決不碰資料标注”,張建表示,“他們現在正在和上遊打官司。”

這是利潤微薄的生意。海天瑞聲是目前資料标注行業内首家主機闆上市公司,去年這家公司有2.63億元營收,利潤隻有2945萬元,淨利潤率剛剛超過10%。但今年上半年,由于客戶數量減少,這家公司便陷入了虧損。

随時可能被替代的“螺絲釘”

依靠着肯亞勞工螞蟻搬家式的積累,最終OpenAI的語言對話大模型能力脫穎而出。這些被稱為資料民工的普通人支撐起了山姆·奧特曼(OpenAI創始人)的AI夢,但如果不出意外,他們手中的大部分工作,很快就會被自己參與創造的新産品所取代。

在國外,Open AI 前員工于2021年成立的Anthropic今年已經融資51.5億美元,是其過去兩年融資總額的7倍還多。這家公司提供了一種新的方法,可在較少人工參與的情況下,便訓練出模型。

今年,AI初創公司refuel推出了一個名為Autolabel的開源工具,可以使用市面上主流的大模型來對資料集進行标注。該公司的測試結果稱,Autolabel的标注效率相比人工标注提高了100倍,成本僅為人工成本的1/7。

在國内,一家名為視智未來的公司也在打造标注大模型。他們在接受采訪時表示,有些項目已經用GPT傳遞了,準确率方面達到了80%多,與人工接近。

不過,海天瑞聲認為,AI一定不會實作完全的自動化标注,因為機器如果想要持續演進,使其更接近于人類的判斷和了解,就一定需要人類作為引導。

幾乎所有從事過資料标注的人員,都向Tech星球透露着同一個觀點:資料标注是一個沒有門檻的工作,隻需要你熟練使用電腦即可。

但事實上,如果簡單的标注可以用AI來完成,那麼人工參與的将是難度更高的資料篩選和标準工作,這也意味着行業的門檻将會不斷提高,尤其是ChatGPT、文心一言類的大語言模型。

作為對照,早在ChatGPT走紅前,OpenAI就組建十幾位博士生來“打标”。而百度在海口的資料标注基地擁有數百名專職大模型資料标注師,标注師的大學率達到100%。

這類大語言模型的特點是,标注員需要具備一定的知識儲備和邏輯分析能力。根據《财經十一人》報道,标注師們需要判斷問題類型,随後給5個回答分别打分并排序,分數區間為0-5分,如果打分低于3分,還要标注出具體原因,例如“答非所問(0分)”、“嚴重跑題(1分)”、“存在邏輯問題,存在事實性錯誤,比例較小給2分”等。

資料标注的另一個熱門領域是自動駕駛。據德勤的報告顯示,2022年自動駕駛領域的标注需求占整個AI下遊應用的38%,預計到2027年,比例将上漲到52%。相較于大語言模型,對于自動駕駛領域的模型而言,那些簡單的拉框操作依然有着較為寬松的學曆要求。

标注員們是人類從移動網際網路時代到人工智能時代的基石,Tech星球接觸到的大部分從業者大多不清楚AI将帶給他們那些改變,也不知道他們為了AI的發展做出的貢獻,他們隻是網際網路時代的新一代螺絲釘,而且随時可能被替代。

(備注:文中人物皆為化名。)

AI大模型折疊:資料标注“民工”月入不過5000,單價從5毛降到4分