通用視覺開源平台OpenGVLab釋出，大幅降低通用視覺模型開發門檻

2月25日，上海人工智能實驗室聯合商湯科技、香港中文大學、上海交通大學共同釋出通用視覺開源平台OpenGVLab，面向學術界和産業界開放其超高效預訓練模型，和千萬級精标注、十萬級标簽量的公開資料集，為全球開發者提升各類下遊視覺任務模型訓練提供重要支援。同時，OpenGVLab還同步開放了業内首個針對通用視覺模型的評測基準，便于開發者對不同通用視覺模型的性能進行橫向評估和持續調優。目前OpenGVLab開源平台（https://opengvlab.shlab.org.cn）已正式上線，供各界研究人員通路和使用，後續項目還将開通線上推理功能，供所有對人工智能視覺技術感興趣的社會人士自由體驗。

“開源是一項意義非凡的工作，人工智能技術的迅速發展離不開全球研究人員十餘年來的開源共建”，上海人工智能實驗室負責人表示，“希望通過釋出OpenGVLab開源平台，幫助業界更好地探索和應用通用視覺AI技術，促進體系化解決AI發展中資料、泛化、認知和安全等諸多瓶頸問題，為推動人工智能學術、産業發展做出貢獻。”

如今雖然人工智能技術快速發展，但很多AI模型還隻能完成單一任務，比如識别單一物體，或識别風格較為統一的照片。如果要對多種類型、風格進行識别，則需要具備足夠的通用性和泛化能力。去年11月，上海人工智能實驗室聯合商湯科技、香港中文大學、上海交通大學釋出的通用視覺技術體系“書生”，很好地解決了這一問題。如下圖所示，對于不同類型的圖檔，它都能較為準确地識别出圖中的内容，包括圖畫。

通用視覺開源平台OpenGVLab正是基于通用視覺技術體系“書生”（INTERN）打造的。依托“書生”在通用視覺技術上的強勁支撐，OpenGVLab将幫助開發者顯著降低通用視覺模型的開發門檻，用更低成本快速開發用于成百上千種視覺任務、視覺場景的算法模型，高效實作對長尾場景的覆寫，推動AI技術的規模化應用。

開放超高性能模型和千萬級精标注資料集，降低學界投入成本

OpenGVLab充分繼承了通用視覺技術體系“書生”的技術優勢，其開源的預訓練模型具備極高性能。相較于此前公認的最強開源模型（OpenAI 于2021年釋出的CLIP），OpenGVLab的模型可全面覆寫分類、目标檢測、語義分割、深度估計四大視覺核心任務，在準确率和資料使用效率上均取得大幅提升。

基于同樣的下遊場景資料，開源模型在分類、目标檢測、語義分割及深度估計四大任務26個資料集上，平均錯誤率分别降低了40.2%、47.3%、34.8%和9.4%；同時，在分類、檢測、分割和深度估計中，僅用10%的下遊訓練資料就超過了現有其他開源模型。使用此模型，研究人員可以大幅降低下遊資料采內建本，用極低的資料量，即可快速滿足多場景、多任務的AI模型訓練。

同時，OpenGVLab還提供多種不同參數量、不同計算量的預訓練模型，以滿足不同場景的應用需求。模型庫中列出的多個模型，在ImageNet的微調結果和推理資源、速度等方面，相比之前的公開模型均有不同程度的性能提升。

除了預訓練模型，以百億資料總量為基礎，上海人工智能實驗室建構了超大量級的精标注資料集，近期将進行資料開源工作。超大量級的精标注資料集不僅整合了現有的開源資料集，還通過大規模資料圖像标注任務，實作了對圖像分類、目标檢測以及圖像分割等任務的覆寫，資料總量級近七千萬。開源範圍涵蓋千萬級精标注資料集和十萬級标簽體系。目前，圖像分類任務資料集已率先開源，後續還将開源目标檢測任務等更多資料集。

此外，此次開源的超大标簽體系不僅幾乎覆寫了所有現有開源資料集，還在此基礎上擴充了大量細粒度标簽，涵蓋各類圖像中的屬性、狀态等，極大豐富了圖像任務的應用場景，顯著降低下遊資料的采內建本。研究人員還可以通過自動化工具添加更多标簽，對資料标簽體系進行持續擴充和延伸，不斷提高标簽體系的細粒度，共同促進開源生态繁榮發展。

釋出首個通用視覺評測基準，推動通用視覺模型評測标準統一

伴随OpenGVLab的釋出，上海人工智能實驗室還開放了業内首個針對通用視覺模型的評測基準，彌補通用視覺模型評測領域的空白。目前，行業中已有的評測基準主要針對單一任務、單一視覺次元設計，無法反映通用視覺模型的整體性能，難以用于橫向比較。全新的通用視覺評測基準憑借在任務、資料等層面的創新設計，可以提供權威的評測結果，推動統一标準上的公平和準确評測，加快通用視覺模型的産業化應用步伐。

在任務設計上，全新開放的通用視覺評測基準創新地引入了多任務評測體系，可以從分類、目标檢測、語義分割、深度估計、行為識别5類任務方向，對模型的通用性能進行整體評估。不僅如此，該評測基準新加了僅用測試資料集10%資料量的評測設定，可以有效評估通用模型在真實資料分布下的小樣本學習能力。在測試後，評測基準還會根據模型的評測結果給出相應的總分，友善使用者對不同的模型進行橫向評測。

随着人工智能與産業融合的不斷深入，行業對人工智能的需求逐漸從單一任務向複雜的多任務協同發展，亟需建構開源、開放的體系，以滿足趨于碎片化和長尾化的海量應用需求。

去年7月，上海人工智能實驗室釋出開源平台體系OpenXLab，涵蓋新一代OpenMMLab和決策AI平台OpenDILab。此次與商湯科技及高校聯合釋出通用視覺開源平台OpenGVLab，不僅能幫助開發者降低通用視覺模型的開發門檻，為推動通用視覺技術發展奠定基礎，也進一步完善了OpenXLab開源體系，促進人工智能的基礎研究和生态建構。

雷峰網

通用視覺開源平台OpenGVLab釋出，大幅降低通用視覺模型開發門檻

繼續閱讀

人工智能與外星文明，人類未來的兩個威脅，哪個會先到來？

以色列上校将中國做為假想敵，提醒防範中國的人工智能網絡攻擊

《我是領袖》AI人工智能探索未來

抓住人工智能這個“牛鼻子”，加快培育發展新質生産力

觀點｜人工智能時代博物館如何緻力于教育和研究

人工智能發展如何影響勞動力就業

2024 年十大人工智能晶片制造公司

人工智能的原理是什麼？

馬斯克：給我特斯拉25%股份，否則剝離人工智能和機器人技術

中科彙聯2024第五屆科創彙聯人工智能發展高峰論壇在京圓滿落幕

科技巨頭積極布局AI領域！微軟将召開年度開發者大會，或透露人工智能PC計劃

醫學人工智能向“新”而行

李開複：預測到2027年人工智能将取代50%的工作

美國家标準與技術研究所啟動“人工智能風險和影響評估”計劃

中美十字路口下，人工智能的“加速追趕”與“何時暫停”｜BEYOND Expo 2024

數字法治｜劉憲權：生成式人工智能的發展與刑事責任能力的生成