天天看點

資料标注将迎國家級建設,“冷門”領域人才需求猛增

作者:第一财經

伴随着數字中國建設的推進,大陸數字經濟邁向了全面擴充期,資料成為了新的生産要素。AGI(Artificial General Intelligence ,通用人工智能)的發展更進一步催生海量資料。

日前召開的2024年全國資料工作會議顯示,經初步測算,2023年大陸資料生産總量預計超32ZB。這表明大陸已是全球資料大國,讓流動的資料創造更多價值是未來方向。

而對于看不見摸不着的海量資料,如何才能運用好?資料标注就為資料采集、存儲處理提供了方法。從概念上看,資料标注是在機器學習中,對原始資料(如圖檔、文本檔案、視訊等)進行分類和标記的過程。這些标記為資料添加了有意義的資訊,使得機器學習模型能夠從中學習。

上述會議指出,接下來,大陸将開展資料标注基地試點。探索建設國家級資料标注基地,充分發揮地方配套支撐作用,在資料标注産業的生态建構、能力提升和場景應用等方面先行先試,集聚龍頭企業,促進區域人工智能産業生态發展。

為何需要資料标注

資料标注就像是為機器學習“劃重點”和“筆記講解”。

賽迪顧問數字轉型研究中心副總經理于凱迪告訴第一财經,比如我們想讓AI創作圖畫,首先需要讓它先學習和識别每幅畫畫的是什麼、顔色是什麼、有什麼實體在裡面,然後AI才能通過這些詳細的注解學會模仿并創作出相似的畫作。AI的文字生成也是一樣,AI需要了解文本資料的情感色彩和使用場景,才能夠學會按照不同的情感要求去生成新的句子或文章。沒有這些“重點”和“筆記”,機器學習的效率、品質和準确性會受到影響。盡管近年來無監督學習和半監督學習技術也在不斷發展,但資料标注依然是精準實作生成式AI的重要因素。

在新興資訊通信技術應用研究院首席專家賀仁龍看來,人工智能是要建構一個世界知識體系,而人類的世界知識體系是能了解萬事萬物的。我們通常的原始資料大部分是非結構化的資料。“比如文字、語音、視訊,這些都是非結構化資料。而标注是用人建構的知識體系去給它們打标簽,那首先就要了解這個語義,标注如果不對,就可能指鹿為馬。”

資料是多樣且複雜的,《數字中國發展報告(2022年)》顯示,2022年大陸資料産量達8.1ZB,同比增長22.7%,全球占比達10.5%。盡管已經出現了各種AI自動化的資料處理方式,但資料标注仍然是一種非常有用的方法。它的優勢在于可以提供高品質、高準确度的資料,并且能夠靈活地應對不同的資料類型和任務。是以,資料标注這個行業也能為各種人工智能系統提供高品質的資料支援。

根據Grand View Research的報告,2022年全球資料收集和标注市場規模為22.2億美元,預計2023年到2030年将以28.9%的複合年增長率增長。2022年全球資料标注解決方案和服務市場規模為118.3億美元,預計2023年到2030年的複合年增長率為21.3%。在中國,資料标注市場也在迅速增長。根據華經産業研究院的資料,2021年大陸資料标注行業市場規模達到43.3億元,同比增長約19.2%,預計到2029年市場規模将達到204.3億元。

資料标注将迎國家級建設,“冷門”領域人才需求猛增

标注人才需求量提升

随着技術的進步和市場需求的增加,資料标注行業也在向知識密集型轉變,這意味着對于高學曆和專業技能的需求将會增加。

賀仁龍對記者解釋道,要建構知識體系,就要對世界對象進行人類認識的标注,好比小孩的認識教育,認識自然數、認識物件桌子是桌子等,這是建構知識體系的最基本的要素,是以有資料标記的産業鍊,基礎大模型就是要建構人類世界知識體系,尤其是常識和邏輯等。“我們通常還有行業或者垂類的模型,比如金融、材料、醫學等,這些行業的基礎标注就不是我們說的自然界和日常生活大家熟知的對象标注了,這裡涉及專業的對象和術語結合的标注過程,就要專業領域的從業人員來标注了。”

根據獵聘大資料研究院今年釋出的《2023年度就業趨勢資料報告》(下稱《報告》),AIGC工具推廣提升職場人競争力、ChatGPT熱讓資料标注人才需求大幅提升。

資料标注将迎國家級建設,“冷門”領域人才需求猛增

《報告》顯示,資料标注此前較少有人關注,當ChatGPT火爆全球後,其需求量大幅增長,2023年較2022年增長34.43%。從行業分布來看,資料标注新發職位主要集中于網際網路、計算機軟體、人工智能三大行業,占比為29.65%、12.7%、9.96%。

出門問問創始人兼CEO、前Google總部科學家李志飛在《報告》中稱,以GPT為代表的生成式AI的這場風暴帶來了AI落地應用的生機,尤其是AIGC方向。雖然基礎大模型本身原則上不需要标注,但大模型賦能各種場景應用的工作離不開各種資料标注,資料标注崗位的增長就是這種需求的反應。

資料标注在其中主要有兩個作用,一是作為訓練語料用來微調(fine tune)大模型,以适應場景應用的目标;二是作為測試資料用來評測應用的資料品質。“沒有資料标注,應用的研發就是盲目的。需要資料标注工作的,無論是内部标注還是外包工作,主要是大模型及其AI應用的開發企業。”他認為。

于凱迪告訴記者,資料标注涉及的需要标注的内容很豐富,從日常通用的圖像和文本資訊,到醫療、外語、金融等專業細分領域的複雜資料均有涉及,是以在技能要求層面的吸納性很強,各個學曆層次的人員都可以從事資料标注師的職業。

《報告》顯示,資料标注的職位招聘平均年薪為12.38萬元。從獵聘平台來看,不同類别的資料标注招聘薪資差别較大,從月薪1萬元以下,到1萬以上、2萬~4萬元不等。獵聘AIG部門負責人莫瑜表示,一般資料标注崗位僅涉及日常文本和圖像,薪資相對低些;相應的,偏專業領域如法律、醫療、跨境電商外語方面的資料标注薪資則較高。

(本文來自第一财經)

繼續閱讀