盡管随着AI的普及,我們在生活中越來越依賴于人工智能,但“人工智障”的相關調侃也從來沒有消失過。
相信大家都知道,如果我們想要讓AI準确識别出圖中的鳥,我們需要在資料集中手動将這些照片标記為鳥,然後讓算法和圖像之間産生關聯性的判斷識别。
要是小規模的實驗性資料還好,一旦遇到那種規模多達數百萬個的标記需求,個中消耗的時間真是難以想象。
俗話說,哪裡有需求,哪裡就有市場。
根據普林斯頓大學、康奈爾大學、蒙特利爾大學和統計科學研究所的聯合調查,研究者們發現,這項标記工作大部分是由歐美國家以外的來自全世界各地的勞工共同完成的。
論文中指出,類似數字經濟公司Samasource等會大量雇傭來自撒哈拉以南非洲和東南亞的廉價勞工,讓他們完成這些枯燥的工作,每天給他們支付8美元的薪水,同時這些公司每年能夠收入上千萬美元。
論文連結:
https://arxiv.org/pdf/2102.01265.pdf為ImageNet工作的勞工隻能拿到2美元時薪
由于許多深度學習技術需要大量的資料來訓練模型,資料标簽的需求也日漸增加,超過80%的機器學習開發過程包括資料的收集、清洗和标簽等工作。
對于Uber和Alphabet等大型科技公司而言,這些服務顯得更為重要。
但是,當我們換個角度,盡管這些勞工正在為目前最熱的人工智能行業做出貢獻,這些系統最終可能并不會直接惠及到他們所在的社群,更令人唏噓的是,不少系統可能會對他們的種族或性别等産生帶有偏見的判斷。
比如ImageNet,這個大型公開的圖像資料集可以說是人工智能曆史上影響力最大的資料集之一了。
研究者指出,為ImageNet标記的勞工隻能拿到2美元的時薪,隻有4%的勞工時薪超過了美國聯邦最低工資标準的7.25美元。
同時,由于ImageNet是使用WordNet進行注釋的,根據一項名為“ImageNet Roulette”的實驗指出,如果人們将照片送出給由ImageNet訓練出來的神經網絡,該神經網絡将使用資料集中的标簽來描述這些。
但當人們在系統中輸入的是他們最感興趣的照片:自拍時,軟體會輸出一些種族主義和冒犯性的标簽來進行描述。
雖然資料标簽不像傳統工廠勞動那樣耗費體力,但不少勞工們報告表示,他們的任務速度和數量是“令人疲憊”和“單調”的,因為他們必須嚴格按照客戶的規格要求來标記圖像、視訊和音頻。
“幽靈勞工”無談判立場,基本權益也難以被保障
近幾年,在全球南部,不少本土科技公司大量湧現,比如肯亞的Fastagger、南非的Sebenz.ai和馬來西亞的Supahands。随着人工智能發展不斷擴大規模,這些公司的擴張也為低技能勞動者進入勞動力市場打開了大門,但相關的勞動剝削行為也仍然在發生着。
研究者們将這些資料标記勞工稱為“幽靈勞工”(ghost worker),因為外界往往看到的隻是一個系統的高識别率,而忽略了這些勞工為訓練資料集做出的勞力工作。
研究者們提出,在美國,這種低工資結構很大程度上是由于花在沒有補償的活動上的時間,比如從事一項最終會被拒絕的任務。
這就引出了Amazon Mechanical Turk這樣的平台在權力動态上的另一個問題。我們就以該平台為例,在這個平台上,所有的權力都集中在任務的請求者那邊,請求者有權力設定他們預計的價格,這個價格可以低至0.01美元,同時請求者還可以回絕勞工已經完成的工作,并聲稱該項任務所需的時間遠遠少于勞工們花費的時間。
在美國,處于這種工作中的标記勞工往往被認為是獨立承包商而非雇員,是以《公平勞動标準法》所保障的保護措施并不能在他們身上适用。
讨論美國的相關情況隻是因為這些資料是最容易擷取的,在全球範圍内,更糟糕的勞工現象隻會更多。
“流水線”勞工正在成為企業的競争力
2018年,BBC記者Dave Lee走訪了生活在肯亞貧民窟的标記勞工,也發現了相同的問題。
根據報道,生活在Kibera的單身母親Brenda每天的工作内容就是把大多數的圖像資料處理成計算機能夠了解的形式。
比如說,在一張上傳的照片上,Brenda需要用滑鼠跟蹤出現的物體,包括人、車輛、路牌、車道、天空,還要特别說明是晴朗的還是陰霾的天空。把數百萬張這樣的輸入到人工智能系統中,對于自動駕駛汽車這類産品而言,就能夠提高系統的識别準确率。
Brenda的工作環境也絕稱不上友好。她和所有的同僚都擠在狹小的辦公室裡,整個工作她必須緊盯顯示屏、放大圖像,防止标錯哪怕是一個像素。
上級人員會檢查他們的工作,如果沒有達到要求,還需要返工。
當然獎勵也是有的,速度最快、準确率最高的标記員的名字會出現在辦公室多台電視機螢幕上,以茲鼓勵。當然他們最喜歡的,還是商場的購物券。
Samasource是他們最大的雇主,根據首席執行官Leila Janah表示,公司能夠與谷歌等科技巨頭建立合作關系,除了準确性和安全性之外,還有一個原因是他們擁有全球最廉價的勞動力,并且當地人迫切需要穩定的工作。
當時,Samasource給出的日薪是9美元,他們希望借此幫助到那些日薪低于2美元、還需要從事地下工作的人。
“确實,它有很高的成本效益”,Janah說,“但我們工作中的一個關鍵點在于,我們不會提供可能破壞當地勞動市場的薪酬水準。如果我們給出的薪酬過高,我們會給整個社會帶來麻煩。比如,可能會對我們員工所生活的社群的住房成本、還有食物成本等帶來潛在負面影響”。
在論文中被提及的另一組織Masakhane,該組織緻力于通過AI保護非洲語言。值得注意的是,Masakhane不會為AI研究者們标記資料,而是建立了一個為非洲大陸标記、研究和建構算法的社群。
官網上寫道:“我們建議将AI開發視為經濟發展的前進之路”,“此開發活動不應專注于低生産率活動,例如資料标記,而應專注于高生産率活動,例如模型開發/部署和研究”。
最後,論文指出,對于這種現象,潛在的解決方案是将這些資料标記器簡單地內建到AI開發過程中,而不是讓他們作為流水線勞工為每個圖像進行标記來賺錢。如此,勞工會獲得公平的薪水,況且得益于他們的生活經驗和專業知識,資料收集過程中的差異也能被很好的發現并解決,系統的整體準确率也将得到提升。