剛剛，國内的自主智能體OmBot釋出了

今年加入 OpenAI 的大牛、前特斯拉 AI 總監 Karpathy 在最近的一次開發者活動上表示：AI 智能體，代表了 AI 的一種未來！

不僅是他，全球 AI 領域的大佬和科技巨頭對 AI 智能體的發展都表現出極大興趣，并寄予厚望。

大語言模型的出現，無疑給 AI 智能體的發展帶來了全新的想象力，是以盡管在衆多 AI 智能體還未達到完全模拟人類智能的程度的情況下，仍然吸引了全球關注，因為它的出現意味着人類在未來實作通用人工智能的目标上邁出的重要一步。

這個在大模型技術與應用之上誕生的全新賽道，搶跑的人意味着能夠擁有先發優勢。

OmBot自主智能體的誕生

在今天的 2023 世界人工智能大會上，聯彙科技釋出了基于大模型能力的自主智能體（Auto AI Agent ）——OmBot 歐姆智能體，并針對典型場景需求，推出了首批應用。

OmBot 歐姆智能體橫空出世的背後，是聯彙科技技術團隊的一次 “蓄謀已久”。

公司核心團隊來自全球計算機殿堂 —— 卡内基梅隆大學，實驗室對于自主化智能體的探索從 90 年代就已經開始。2014 年，聯彙科技首席科學家趙天成攻讀博士時，已經成功研發了全球第一個多模态智能體平台 DialPort，讓不同高校的智能體（機器人）在一個平台彙集，并讓他們一同協作幫助人類完成各種任務。

這些智能體的專業領域各不相同。

例如有些是幫助訂餐廳，有些是幫你分析電影，有些是幫你處理文案等等。随着智能程度的不斷增加，DialPort 彙集了超過 100 個智能體能力，為超過 100 篇學術研究項目提供了智能體的基礎平台，更是影響了包括 AmazonAlexa 在内的衆多目前已經成熟的互動智能體的設計思路。

自主智能體的初步探索

那麼，什麼是自主智能體呢？

聯彙科技給出了明确的回答 —— 智能體是能夠感覺環境、自主決策并且具備短期與長期記憶的計算機模型，它能夠模仿人類大腦工作機制，根據任務目标，主動完成任務。

聯彙自主智能體包含了認知、記憶、思考、行動四大核心能力，作為一種自動、自主的智能體，它以最簡單的形式中在循環中運作，每次疊代時，它們都會生成自我導向的指令和操作。是以，它不依賴人類來指導指令，具備高度可擴充性。

自主智能體核心能力

認知是智能體擷取環境資訊的過程。将原始資料轉化為計算機可以了解和處理的形式，而人類 80% 的資訊輸入來自于視覺。

記憶是智能體存儲和提取資訊的能力。包括短期記憶和長期記憶，前者用于存儲臨時的資訊，後者用于存儲更持久的知識和經驗，并最終由記憶在決策和行動中發揮價值。

思考是智能體對感覺和記憶進行分析、推理和決策的過程。使用各種算法和技術來處理感覺資料和記憶資訊，以生成合理的決策和行動計劃。其中，語言是我們思考的核心邏輯。

行動是智能體基于感覺、記憶和思考結果采取的具體行為。包括控制機制和執行器，用于将決策轉化為實際的實體行動或其他形式的輸出。

第一批自主智能體是什麼

當自主智能體具備了以上 4 類核心能力後，自然而然面向不同行業、不同需求、不同場景的第一批智能體應運而生 —— 視訊小歐、文檔小歐和 AIGC 小歐。

是的，聯彙首次推出的自主智能體并不止一個，而是一批。

他們能做什麼呢？

視訊小歐可以成為新零售場景中的智慧店長。通過與攝像頭視覺資訊結合，利用歐姆大模型智能識别店内發生的一切，形成機器人記憶，并自主決策提示互動資訊。自主關注店内值得關注的事件，在必要時進行提示。通過與機器人對話互動，使用者可以随時詢問店内發生過的一切，協助店鋪的管理營運。

視訊小歐成為自主思考的智慧店長

文檔小歐可以成為個人和企業的學習助理。面對電力、石油、醫學等行業專業知識學習成本高、查詢困難的痛點，文檔問答機器人可以将專業知識有效內建到向量資料庫，并存儲記憶，形成專業機器人，通過多模态内容了解與内容生成，智能回複使用者問題，并給出專業的回答。

文檔小歐幫助行業小白解決專業問題

AIGC 小歐可以成為媒體、文化、遊戲等行業的剪輯助手。通過 AIGC 實作媒體視訊素材的一鍵成片，針對視訊主題，語言子產品完成視訊内容文案生成，随後拆分為更加細節的視訊鏡頭描述，依托語言了解能力，對素材庫視訊進行搜尋、剪輯和生成，最終大幅降低視訊制作門檻。

AIGC 小歐一鍵成片

現場，聯彙科技行嗨釋出了基于 OmBot 歐姆智能體與大模型技術的行業級智慧文旅底座，為文旅全行業提供包含元宇宙、AIGC、智慧助手等典型場景快速賦能。

面向行業、企業、個人等不同主體千變萬化的需求，OmBot 歐姆智能體将通過高效調教，實作個性化智能體的快速生成與進化，未來的自主智能體，不是一個，也不是一批，而是 “人均” 機關下的應有盡有。

自主智能體會像孫悟空的分身猴毛，有需要就可以快速的實作。

歐姆大模型 3.0 來了！

仔細體驗首批自主智能體，不難發現，在應用過程中，認知與思考是自主智能體核心能力的核心。

對于認知與思考的解決方案，聯彙依賴的是背後的多模态大模型。

早在 2019 年，聯彙科技就與 OpenAI CLIP 模型同期推出了歐姆模型 1.0，實作跨模态搜尋，随後的歐姆大模型 2.0，聚焦開放目辨別别，實作了從圖文檢索的到目标了解的躍遷。

目前，聯彙科技正式推出歐姆大模型 3.0，直指行業性能最強、真正落地應用的大模型。

這次的歐姆大模型 3.0 實作了哪些飛躍呢？

OmModel V3 正式釋出

開放識别方面，歐姆大模型支援對視覺圖像、視訊進行标簽全開放識别。預訓練中已經包含了數十億的高品質圖文比對資料，包含大量的環境背景，目标類型，目标屬性與行為特征，疊加全圖細粒度級别的了解，圖文的語義比對，圖文問答等多任務的訓練，使歐姆大模型 3.0 具備了能力湧現的保障。

歐姆大模型 3.0 不再局限于固定的目标類型清單，而是通過語義了解去了解視覺中的任意目标，甚至是描述的方式去定義目标。

開放識别

視覺問答方面，建構了私有的十億級媒體資料和物聯網資料，包括無人機視角，監控視角等，通過多任務訓練，歐姆大模型 3.0 将包括自然語言解析、邏輯推理、圖像了解以及自然語言生成等 AI 能力進行深度融合。将視覺模型和語言模型進行細粒度的對齊，讓其可以了解人類指令，并合理作答。

另外，歐姆大模型可以在針對圖檔進行問答之後進行多輪對話推理，并擴充視覺之外的資訊。

視覺問答

認知推理方面，通過不斷提升歐模大模型的内容了解與多模态的語義對齊的能力，結合語言模型的能力，歐模大模型能夠做到基于視覺認知的推理，并由此支撐智能體所需要的認知與推理能力。

例如，看到兒童摔倒，模型可以推理要立即檢查兒童有沒有受傷。看到有小孩在窗邊，模型可以提醒要注意兒童的安全。看到瓶子破裂飲料打翻，模型可以提醒馬上清理防止有人滑倒。

在開放識别、視覺問答的基礎上，認知推理的能力能夠賦能智能體從被動的識别轉為主動推理，進行思考與決策，并提出相應的智能解決方案。

推理認知

高效微調方面，針對傳統全參數微調消耗大量 GPU 計算與存儲資源的情況，聯彙從模型訓練和模型推理兩方面入手，使得歐姆大模型能夠好用、易用。

在模型訓練上，聯彙自主設計 PEFT 羽量微調技術，與标準全參數微調相比，僅微調模型參數的一小部分，訓練參數量小于 1%，在大幅降低計算和存儲成本的同時，實作媲美全參數微調的性能表現。這樣的做法能夠真實降低大模型的微調訓練門檻，快速适配使用者長尾場景的訓練需求。

訓練參數量小于 1%

在模型推理上，聯彙推出針對多模态大模型的推理運作系統 ——Hydra 九頭蛇部署架構，通過多卡叢集部署蛇身，由多個公用的底座模型組成，而各個算法任務隻需要部署羽量級的蛇頭模型，實作 MaaS 架構。在推理時，蛇頭模型可與任意公用蛇身模型結合産生識别結果，且新增算法任務隻需增加羽量級蛇頭模型。進而實作了 GPU 叢集資源的高效利用，并突破算法任務部署顯存資源的上限。

Hydra 九頭蛇部署架構

作為成熟的大模型，歐姆大模型擁有良好性能的同時，依舊在不斷自我進化。聯彙研發團隊建構了一套完善的人在環路指令學習進化體系。

人在環路指令學習進化體系

對于一個疊代更新後的新版本大模型，首先需要經過品質部的錘煉，通過基于内部量化資料集進行能力驗證，再配置并測試各種算法任務，確定模型的更新成功。在模型實際部署上線後，持續跟蹤算法任務運作情況，記錄并回報模型潛在缺陷和優化點。

資料部據此對新算法任務、長尾場景和模型識别缺陷等關鍵點，使用完整的資料回流體系進行針對性的資料采集、資料清洗、和指令學習資料集生成等操作。

在指令學習資料集完成累積周期後，算法組将基于品質組的回報以及資料組采集的資料對歐姆大模型進行新一版本的疊代優化訓練，針對性提高模型在業務算法上的能力，增強泛化能力。

基于由效果評估、更新政策、資料回流、優化更新構成的人在環路指令學習進化體系，歐姆大模型可以對底座模型進行有效的指令學習、疊代更新，進而在現有的算法任務上有更好的表現。

這也意味着每隔幾個月，歐姆大模型都會疊代進化得更加強大。

完善的工具鍊和工程化架構

成功的大模型在應用層面落地需要與之配套的工具鍊與工程化架構。

為了幫助使用者更好、更快的使用大模型技術與産品，聯彙正式釋出歐姆大模型工具軟體集合，用 AI - 原生的思路，重新想象 AI 智能體的開發工具，讓開發者可以快速建構未來的爆款智能體！

歐姆大模型應用體系

過去幾年間，聯彙科技建構了完善的針對視覺了解場景的工具鍊平台。開發者可以利用自然語言靈活的表述識别需求，OmVision Studio、OmVision OS 等平台與系統，提升算法生産效率的同時，有效降低了人工智能技術的應用門檻，為更多的企業與行業賦能。

OmVision 應用體系

今天，聯彙科技首次釋出針對智能體的 OmBot OS 作業系統。開發者可以基于靈活的子產品配置，将多模态大模型、向量資料庫、人機互動認知架構進行深度融合，為建構基于多模态資料感覺、認知、思考與行動的智能體奠定基礎。

OmBot OS 架構

OmBot OS 提供自帶的長期記憶子產品，同時允許開發者使用者編寫主動思考子產品與互動響應子產品，支援響應式問答與主動推薦思考的任務場景。同時支援記憶反思子產品，模拟人類對于長期記憶的主動壓縮與思考過程，從繁雜的原始記憶中抽取出更加高次元的抽象記憶資訊，讓我們的智能體更加人性化。

OmBot OS 讓開發者可以基于靈活的子產品配置，将多模态大模型、向量資料庫、人機互動等技術進行深度融合，為建構基于多模态資料進行感覺、認知、思考與行動的智能體奠定了基礎。

以更開放的方式擁抱 AGI 時代

完善的産品矩陣與人在環路指令學習進化體系為聯彙科技的技術生長打下紮實基礎，在此之上的對外開放能力同樣令人期待。

聯彙首席科學家趙天成博士表示，我們相信在未來，每個人與每一家企業都可以在 AI 的能力加持，具備更好的記憶、認知和決策能力，我們現在的技術方向，就是讓機器不斷與我們人類對齊，持續進化，最終真正為人類所用。

在這樣的過程中，聯彙科技始終以使用者為中心，不斷進化能力、疊代産品、開放生态，推動降低人工智能使用門檻，加速推動普惠 AI 賦能千行百業。

在 AGI 時代來臨之際，人工智能的範式變革正在加速，曾經的故事正在成為現實。