天天看點

ChatGPT的風口帶動上遊自然語言處理行業市場規模加速增長

GPT是“Generative Pre-trained Transformer”生成型預訓練變換模型的縮寫,目的是為了使用深度學習生成人類可以了解的自然語言。目前讨論的GPT一般指的是GPT-3, GPT-3由人工智能公司OpenAI訓練與開發,該模型設計基于谷歌開發的變換語言模型。ChatGPT可以了解為是一個通用聊天機器人。根據 OpenAI 的說法,GPT-3.5通過吸收大量來自網絡的内容,包括成千上萬的維基百科條目、社交媒體文章和新聞文章,來學習句子、單詞和部分單詞之間的關系,除了能寫代碼、劇本并進行詞曲創作,還可與人類對答如流,推出後被譽為人工智能的曠世巨作。ChatGPT是史上使用者增長速度最快的消費級應用程式。推出僅兩個月後,ChatGPT在2023年1月末的月活使用者已突破1億。

ChatGPT的風口帶動上遊自然語言處理行業市場規模加速增長

産業鍊上遊方面算力、資料标注、自然語言處理、人工智能生成内容需求等有望被帶。根據相關機構,由于ChatGPT主要基于自然語言處理,是以在自然語言處理領域沉澱較多的企業,有望率先實作功能的部分複,對于大陸人工智能技術和産業發展做出了示範,代表着目前國際前沿人工智能技術的快速發展,并且人工智能的商業化圖景也越來越清晰。ChatGPT主要基于自然語言處理,是以在自然語言處理領域沉澱較多的企業,有望率先實作功能的部分複現。随着人工智能技術的快速發展,人工智能技術提供商,特别是自然語言處理頭部廠商将率先受益。作為人工智能領域中的重要一環,自然語言處理技術的進步推動着人工智能向認知智能演進。

據估計2022中國NLP市場保持30%以上的增速,市場規模達174.5億元。在新業态不斷湧現,虛拟人市場、人機互動需求日益擴大的背景下,預計自2026年起,NLP市場将保持35%以上的增速,到2028年,中國NLP市場規模将超過千億元,到2030年,市場規模将超過2千億元,2022-2030年均複合增長率達到36.5%。

ChatGPT的風口帶動上遊自然語言處理行業市場規模加速增長

大陸資料标注行業處于高速發展階段

資料标注就是對文本、圖像、語音、視訊等待标注資料進行歸類、整理、編輯、糾錯、标記和批注等操作,為待标注資料增加标簽,生成滿足機器學習訓練要求的機器可讀資料編碼。資料标注是人工智能技術的底層支撐,是大部分人工智能算法得以有效運作的關鍵環節。在ChatGPT訓練的三個階段中,隻有第三階段不需要使用人工标注資料,第一、第二階段都需要大量的人工标注,資料标注以人工标注為主,屬于勞動密集型産業,随着機器學習不斷完善,自動标注成為大趨勢。下遊應用場景的拓展與大模型的快速發展也将有力地推動行業上遊發展資料标注的需求都将大幅增加。

ChatGPT 在參數規模上已經達到了千億級别,對于AI 大模型而言,不論是訓練還是推理,對于資料标注有着極大的需求。2019年,資料标注行業市場規模為30.9億元,到2020年行業市場規模突破36億元,預計2025年市場規模将突破100億元,說明大陸資料标注行業處于高速發展階段。目前的人工智能(有監督機器學習)由标注資料驅動,可以說标注資料是人工智能的血液。随着人工智能成為國家發展戰略,其勢頭銳不可擋。

ChatGPT的風口帶動上遊自然語言處理行業市場規模加速增長

人工智能行業的蓬勃發展,對資料的需求呈井噴式增長,資料标注行業是伴随着人工智能的興起而産生的一個新興行業。目前,大陸國内市場越來越多的網際網路巨頭公司開始組建自己的資料标注平台,京東(京東衆智)、百度(百度衆測)都已經擁有自己的标注平台和工具。頭部公司之外,國内近年興起衆多資料标注公司,如龍貓資料、Testin雲測、倍賽BasicFinder、資料堂等,這些公司僅次于第一梯隊,都具有相當的規模。

ChatGPT的風口帶動上遊自然語言處理行業市場規模加速增長

繼續閱讀