(報告出品方/分析師:财通證券 程兵 佘炜超)
1 機床龍頭,發力資料預訓練再塑成長動能
彙洲智能是大陸傳統機床龍頭。公司機床業務起家,旗下控股子公司齊重系機床等高端裝備制造業務的經營主體,曆經73年發展,成為大陸傳統機床龍頭企業。
為迎接AI浪潮,發力AI大模型資料預訓練業務,重塑新的成長動能。公司為迎接AI發展浪潮,通過收購積極布局AI大模型資料預訓練業務。2019年收購長華文化,取得熱熱文化控制權,作為AI資料與訓練業務的經營主體,同時将控股子公司中科彙洲數商作為AI資料預訓練業務的技術研發主體。
1.1 夯實重工基礎,機床為發展壓艙石
公司機床業務産品矩陣完善。公司始建于1950年,是國家一五時期重點建設項目之一,高端制造底蘊豐厚。曆經73年積累,已成為大陸重要的數控機床生産基地。截至目前已形成38萬平方米的機床生産基地,包含10大類,26系列,600多品種的機床産品矩陣。
公司多項技術彌補海内外空白。截至目前,公司400多項具備自主産權的産品填補國内空白;立式車床加工直徑最小可達0.5米,最大可到填補國際空白的25米;卧式車床加工直徑最小可達1米,最高到填補國際空白的6.3米。廣泛用于船舶、汽車、風電等下遊行業。
“齊一”品牌優勢顯著。“齊一”數控機床是中國知名機床品牌,部分高端機床産品已成功出口歐美、日韓等30多個國家和地區,截至2023H1重型車床市場占有率40%到50%,重型深孔鑽镗床市場占有率100%。
持續擴大研發支出,搭建“4+3+N”的創新體系鞏固研發優勢。曆經73年發展,公司機床産品研發經驗豐富。近年來,公司發力建構“4+3+N”的創新體系:搭建4個科技創新平台,培育3個科技創新團隊,引進N家科研院所及企業,高平台化研發能力,鞏固研發優勢。截至2023H1,公司是大陸重型卧式車床、重型深孔鑽镗床、重型立式車床的國家檢驗标準制定機關,主持和參與制修定标準累計77項,專利授權302項。
公司技術團隊經驗豐富,持續擴大研發支出。截至2022年底,公司研發人員數量187人,同比2021年提升15%,其中40歲以上占比57%,多數研發人員擁有多年研發經驗。公司持續擴大研發支出,2022年研發支出64.84百萬元,同比增長56.05%,研發支出占比營收9.23%,同比提升4.27pct。
2020年起,公司緊跟下遊需求變動雙向發力,實作機床産品的全面更新。
公司縱向緊跟需求變動,向下遊熱門行業拓展。為承接下遊風電行業的需求釋放,公司快速針對風電主軸、法蘭、回轉支承研發了數控專用卧車、定梁立車、硬車和滾齒機等一系列産品,2022年風電行業産品新增合同額占比高達60%以上。
公司橫向緊跟行業技術趨勢,向高端品更新。2022年公司發力研發适用于下遊航空航天、船舶、能源行業的高精度機床,完成全新高端産品設計26台,技術準備147項,電氣設計190項,工藝設計221項。
截至2022年底,公司仍存在8項高端産品在研項目。其中超聲微鍛造輔助雷射增材制造項目,有望彌補國内技術空白;基于5G通訊的智能機床在研項目,有望助力公司産品的智能化轉型更新;數控重型卧式镗床針對風電主軸内孔,國内領先,下遊應用前景廣泛。
1.2 發力AI資料預訓練,重塑成長動能
公司受益于大模型賽道的長坡厚雪,依靠三大核心壁壘:豐富的技術和産品矩陣、高粘性的優質客戶、經驗豐富的核心技術團隊,快速成為AI資料服務商新秀。
公司布局資料預訓練業務,重塑新的發展動能。公司于2019年收購徐州長華100%股權,取得了對熱熱文化的控制權,建構AI資料預訓練業務經營主體,同步設立控股子公司人民中科數商為AI資料預訓練研發主體,提前研釋出局,承接下遊資料标注需求的釋放。
公司資料業務矩陣分為網際網路内容稽核和AI資料标注兩大闆塊,資料标注産品和技術已進入行業前列水準。
公司已形成行業領先的資料标注技術矩陣和資料集産品矩陣,截至目前,已實作針對文本、圖檔、語音、視訊等資料類型的标注,其中計算機視覺相關的視訊追蹤、打點、連續幀技術;2D圖像語義分割;3D點雲融合、連續幀等資料标注技術,适用于下遊自動駕駛、人形機器人等熱門終端場景;沉澱的可複賣的标品資料集涵蓋文本、圖檔、音頻、視訊;并可針對自動駕駛、城市規劃、醫學影像診斷等場景制定解決方案。
内容稽核業務在人員規模、内容覆寫和準确率多元度領先同業。熱熱文化2016年成立,發展至今已在北京、成都、綏化、棗莊、金華設立五個規模型稽核、标注基地,稽核團隊規模超5千人,累計培養稽核人才超5萬人,累計稽核資料20億條;在網絡内容的安全稽核業務事故率和遺漏率均較低。
公司核心團隊自帶AI資料預訓練産業經驗,背景豐富奠定研發優勢。資料預訓練研發主體中科彙洲數商人民網+中科院北京紫東科技中心等多方牽頭創辦研發平台,自帶AI資料技術背景和産業經驗。
業務主體熱熱文化總經理李剛是前阿裡雲網際網路事業部技術負責人,公司監事、技術團隊負責人李兵是中科院自動化所博導,人民中科首席科學家,曾成功開發跨模态預訓練智能搜尋引擎“白澤”模型。
公司已形成多層次、高粘性的客戶矩陣。公司内容稽核業務起家,與人民網淵源深厚,起點高疊加深耕基礎資料服務數年,公司依靠高品質服務已成功建立多層次高粘性的客戶矩陣,遍布下遊網際網路、人工智能科技企業、航天、重工、金融、政務、高校等行業。
2 場景驅動,AI預訓練資料有望增長
2.1 預訓練資料是AI産業鍊的基石
資料是AI産業鍊上遊的基石。ChatGPT大模型引領本輪生成式AI浪潮,縱觀目前的AI産業鍊,上遊資料來源于終端場景的采集,是算法感覺世界的起點;中遊模型開發是資料應用的工具;下遊場景端拉動模型算法疊代;監管是貫穿上下遊全環節的剛需。
根據AI分析公司Congnilytica研究顯示,AI項目中資料處理過程占據80%的時間,其中資料标注占比25%,針對複雜場景資料的有效預處理,可縮短資料識别、整合、增強、清洗、标注全環節的時間周期,為模型開發節約成本。
縱觀AI資料鍊,AI資料預訓練環節是承上啟下的關鍵抓手。
預訓練資料服務承接上遊資料來源:非結構資料隻有經過預訓練處理才能激活其價值。AI預訓練資料服務将場景端語音、圖像、文本、視訊、點雲等非結構化資料進行采集、清洗、标注、質檢,形成AI模型可直接利用的有效預訓練資料集。
預訓練資料助力下遊算法設計、訓練、評測、疊代全生命周期降本增效。
(1)算法設計環節,利用小批量預訓練資料對算法初步的設計進行驗證,減少模型設計的方向性偏差。
(2)算法訓練環節,有效簡化模型參數規模,節約算法開發時間。
(3)算法測評環節,少量人工标注的預訓練資料可作為模型輸出結果的對照組,有效評定模型的準确性。
(4)算法疊代環節,針對bug對預訓練資料進行精确标注處理,進而對模型精準修複,有效提升模型性能。
2.2 多模态趨勢顯著,提升資料預訓練的重要性
多模态預訓練資料是解決AI應用長尾問題的關鍵,大模型與垂直領域的産業結合趨勢帶來的多模态技術遷移,将進一步提升預訓練資料環節的重要性。
海内外模型多模态趨勢顯著,輸入資料從海量語言資訊、文本資訊,發展為多類垂直領域的多模态資料。疊加模型底層是模型通過對指令的了解,建立起不同模态資料,如:文本、語音、視訊、圖像等資料的關鍵特征,并建立多元映射。是以,模型訓練和優化過程需要海量的多模态資料。資料預訓練通過對非結構化多模态資料進行跨模态特征的提取、對齊和融合,解決産業結合下多模态資料難以有效識别和語義資訊深度利用的痛點。
模型趨向特定方向上的優化疊代,競争焦點從參數規模轉移到與資料品質。
伴随大模型與垂直領域的産業結合更多模型或将采用類強化學習模式來進行特定領域或特定方向上的優化疊代,是以,在模型預訓練環節、微調環節,高品質的标注過的指令資料是模型精确度、泛化能力的基礎。
競争焦點從參數規模的競争到資料品質的競争。如大模型誕生初期,主流觀點是參數規模是模型效果增強的核心要素,模型參數越大,性能表現越好,目前這一觀點正逐漸被打破。如Llama-13B參數規模為GPT-3的1/13,依靠模型訓練資料規模,最終常識推理、閉卷問答、閱讀了解等方面表現略優于GPT-3。
2.3 場景落地,驅動資料預訓練需求釋放
模型演變趨向算法功能至上,資料成為場景落地重要的推動力量,全球範圍内AI預訓練資料需求快速增長。ChatGPT誕生初期,模型預訓練資料為截止到2019年5月的曆史存量資料,本來伴随模型在垂直領域的結合,海量終端全新資料的标注需求有望釋放。根據Cognilytica預測,2022E全球AI訓練資料市場規模為393億元,2027E年有望達到1574億元,2022E-2027E全球市場五年複合增速31.98%。
智能駕駛是資料預訓練未來五年彈性最大的應用場景,2022E-2027E五年複合增速為37%。根據德勤測算,2022E年中國基礎資料服務行業市場規模為45億元,預計2027E年最高有望達到160億元,2022E-2027E五年複合增速為29%。從終端場景出發,目前自動駕駛、智慧工業、網際網路内容等終端場景占比資料服務行業較大市場佔有率。
車型疊代進展、量産進度、滲透率三個因素将有望催化資料處理需求呈現指數級增長。
(1)車型疊代過程中,不同傳感器配置需要基礎資料服務商定制不同的資料解決方案。
(2)量産進度帶來終端場景資料加工規模的指數級增加。
(3)滲透率的提高加深了場景資料的複雜性,針對複雜場景多模态資料的加工精度對資料标注提出更高的要求。
資料推動應用端和模型疊代的共振,未來有望反向賦能場景落地。資料預訓練是整個大模型訓練的知識灌輸階段,資料标注服務商為大模型提供大量标簽資料,保證模型真正學習産業核心資料知識,進一步加深産業适配。高品質預訓練資料集是大模型自回報強化學習機制的前提,加速大模型疊代齒輪運轉,長期實作場景落地和模型疊代的共振。
3 布局自動駕駛,快速鑄就行業壁壘
3.1 發力智能标注,助力降本增效
智能工具輔助标注,助力資料預訓練業務降本增效。
公司通過智能預标注、人機互動輔助标注、智能質檢等,實作降低人員成本,同時也能夠快速地提升AI模型能力。目前人工智能标注衆包平台、人工智能巡檢稽核平台均進入營運階段。
(1)人機互動輔助标注:公司上線Enable AI智能化标注平台,人機互動模式,提升複雜終端場景資料标注的效率和準确度。如人工點選,AI高精度識别整車的輪廓;針對3D點雲資料,自動對連續幀資料的後續幀進行智能标注和預測。
(2)智能預标注:針對較簡單場景的資料,首先利用人工标注的小樣本資料訓練輔助預标注模型,其次模型預标注剩餘樣本資料,最後人工質檢。
(3)智能質檢:通過AI智能質檢模型的巡檢,一方面發現人工标注失誤,如說漏标或錯标,提高資料标注品質。另一方面定位樣本資料中較難樣本,針對性提高質檢人員的專業程度,進而提升質檢效率。
智能标注助力資料預訓練和模型開發互相賦能,海内外龍頭紛紛切入,降本增效效果顯著。智能輔助标注一方面助力資料預訓練服務商提升标注效率,降低标注成本;另一方面賦能模型開發商提升模型性能,提高模型研發效率,實作閉環。目前行業自動标注趨勢顯著,海内外龍頭紛紛切入,降本增效效果顯著。如海天瑞聲上線一體化智能資料處理平台,并接入開源大模型;澳鵬自研智能輔助标注平台,通過資料預标注可提升效率91.5%。
3.2 切入自動駕駛,享受更多行業增量
平台化統籌、智能化、技術先進性是自動駕駛場景資料預訓練的的準入壁壘,公司始終緊跟AI大模型應用場景的轉變,依靠技術、産品、研發優勢,搶先布局自動駕駛賽道,将會更好掌握智能駕駛資料市場的主動權,切分更多行業增量空間。
(1)平台化統籌能力:公司針對自動駕駛場景,已成功積累項目統籌管理經驗和資料預訓練處理經驗。目前完善的人員管理架構助力大型項目人員的高效配置設定;針對資料多樣性和複雜性,設定合适的置信區間、算法引擎投票機制、置信區間等,提高資料預訓練的品質和效率。
(2)智能化水準:将雷射雷達和深度攝像頭等終端傳感器擷取的點雲資料進行标注,可助力自動駕駛艙外算法和服務機器人實作預判,如精準的環境感覺、高效的路徑規劃、可靠的障礙物檢測,最終助力算法的行為決策。截止目前,公司智能輔助标注工具已實作點雲連續幀、點雲融合标注,為自動駕駛場景建構更加全面的三維環境模型。
(3)技術先進性
終端場景的變動,驅動資料預訓練企業對終端軟體層算法趨勢和硬體層資料采集趨勢形成自身洞察,前瞻性研釋出局,不斷疊代标注技術,持續保持技術先進性。截至目前,公司已具備自動駕駛方案解決能力,具備艙内語音、艙外圖像、視訊等多類型資料的标注能力。
如表5所示,Enable AI智能标注平台支援傳感器3D點雲資料的連續幀标注、不同資料的點雲融合。
智能駕駛場景有望領先釋放預訓練資料需求,需求釋放進度随算法疊代和落地車型量産的時間呈現周期性收斂。
考慮資料處理位于算法開發産業鍊上遊,資料需求前置于終端場景,智能駕駛場景有望領先釋放預訓練資料服務行業。根據德勤測算,2027E年智能駕駛帶來的AI預訓練資料服務需求有望達到83億元,2022E-2027E五年複合增速為37%,占據市場佔有率52%。
2022年自動駕駛處于研發并推進L2+級别的自動駕駛落地,2025年有望實作L3級别自動駕駛的商業應用,2030年有望實作L4級别自動駕駛的逐漸落地。
是以,目前将繼續受益于L2+向L3技術疊代帶來的資料需求放量,2025年之後基礎資料需求将開始相對收斂。2027年開始L3+向L4更新疊代,算法疊代提升應用場景的複雜性,AI預訓練資料處理需求指數級上升,2027年需求或将開始新一輪逐漸釋放。
4 盈利預測與估值
4.1 盈利預測
主營業務收入假設:
(1)機床業務:2022年公司該部分業務收入為6.09億元,增長28.61%。公司位于機床裝置制造第一梯隊,技術壁壘穩固。根據公司曆史兩年的銷量資料,假設2023-2025年銷量為500、512、515台,對應該部分業務營收分别為7.61、 9.29、11.33億元,對應增長率分别為24.89% 、22.21% 、21.87%
(2)資料預訓練業務:該部分業務主要為網絡内容稽核和大模型預訓練資料标注,目前體量占比營收較小但彈性可觀,有望成為未來業務增長的最大動能。
目前自動标注模型研發進展順利,疊加下遊客戶拓展已初見成效,我們假設2023-2025年該部分業務增速回調至65.13%、99.15%、60.21%,對應2023-2025年營收為0.50、1.00、1.60億元,對應增長率分别為65.13%、99.15%、60.21%。
(3)其他業務:2022年公司該部分業務收入和上年相比呈微增趨勢,變化相對穩定。假設未來繼續保持平穩增速,我們預測公司2023-2025年該部分業務營收分别為0.75、0.77、0.79億元。
綜上預計2023-2025年營收為8.86、11.06、13.72億元,同比增長26.11%、24.83%、24.01%。
毛利率假設:
(1)機床制造業務:公司該部分業務工藝成熟,存在規模效應,且目前公司橫向發力向中高端市場切換,毛利率有望持續改善,預計2023-2025年分别為22.99%、24.23%、25.12%。
(2)資料預訓練業務:公司該部分業務有望受智能駕駛場景應用的催化,業務從網際網路内容标注切換到高附加值的預訓練資料标注,未來随着自研模型落地,有望實作半自動化标注,進一步提升毛利率。預估毛利率相對穩定,預計2023-2025年分别為21.12%、22.85%、25.16%。
(3)其他業務:假設毛利率水準平穩變動,預計2023-2025年為22.86%、21.73%、20.92%。
綜上,考慮業務占比推算公司2023-2025綜合毛利率為22.87%、23.93%、24.88%。
4.2 估值
公司目前主營業務為機床業務,故選高端裝置制造龍頭秦川機床、海天精工和亞威股份。海天精工為最新預測資料,秦川機床和亞威股份為wind一緻預測資料,2023-2025年可比公司的PE平均數值為36.40X 、27.32X、21.77X。
公司在傳統核心機床制造業務技術壁壘穩固,優勢明顯。新切入基礎資料服務賽道受益大模型的長坡厚雪,疊加公司前瞻性卡位智能資料标注和汽車自動駕駛,有望切分更多行業份額。
綜上所述,我們預計公司2023-2025年實作營業收入8.86/11.06/13.72億元,歸母淨利潤1.82/2.66/3.54億元,對應PE分别為41.69/28.53/21.45倍。
5 風險提示
1、大模型産業結合不及預期
大模型産業結合的落地進度受到模型疊代水準,産業資料确權,産業資料采集标注難度增加等多方面的壓力,模型産業結合任重道遠。
2、智能資料标注市場競争加劇
國内智能資料标注市場參與者為頭部資料服務公司,大廠自研資料衆包平台等,随着市場放量,多家先後自研資料标注模型,搶占先發紅利,競争逐漸加劇。
3、智能标注平台落地不及預期
公司自研的智能标注大模型仍在研發過程中,存在技術難關攻克難以匹及預期的風險。
——————————————————
報告屬于原作者,僅供學習!如有侵權,請私信删除,謝謝!
報告來自【遠瞻智庫】