天天看點

捅破開源天花闆:通義千問72B、1.8B模型開源,最小端側都能跑

作者:機器之心Pro

機器之心原創

作者:張倩、杜偉

目前,通義千問開源全家桶已經有了 18 億、70 億、140 億、720 億參數量的 4 款基礎開源模型,以及跨語言、圖像、語音等多種模态的多款開源模型。

「Qwen-72B 模型将于 11 月 30 日釋出。」前幾天,X 平台上的一位網友釋出了這樣一則消息,消息來源是一段對話。他還說,「如果(新模型)像他們的 14B 模型一樣,那将是驚人的。」

捅破開源天花闆:通義千問72B、1.8B模型開源,最小端側都能跑

有位網友轉發了文章并配文「千問模型最近表現不錯」。

這句話裡的 14B 模型指的是阿裡雲在 9 月份開源的通義千問 140 億參數模型 Qwen-14B。當時,這個模型在多個權威評測中超越同等規模模型,部分名額甚至接近 Llama2-70B,在國内外開發者社群中非常受歡迎。在之後的兩個月裡,用過 Qwen-14B 的開發者自然也會對更大的模型産生好奇和期盼。

捅破開源天花闆:通義千問72B、1.8B模型開源,最小端側都能跑

看來,日本的開發者也在期待。

正如消息中所說的,11 月 30 日,Qwen-72B 開源了。它以一己之力讓追開源動态的國外開發者也過上了杭州時間。

捅破開源天花闆:通義千問72B、1.8B模型開源,最小端側都能跑

阿裡雲還在今天的釋出會上公布了很多細節。

捅破開源天花闆:通義千問72B、1.8B模型開源,最小端側都能跑

從性能資料來看,Qwen-72B 沒有辜負大家的期盼。在 MMLU、AGIEval 等 10 個權威基準測評中,Qwen-72B 都拿到了開源模型的最優成績,成為性能最強的開源模型,甚至超越了開源标杆 Llama 2-70B 和大部分商用閉源模型(部分成績超越 GPT-3.5 和 GPT-4)。

要知道,在此之前,中國大模型市場還沒有出現足以對抗 Llama 2-70B 的優質開源大模型,Qwen-72B 填補了這一空白。之後,國内大中型企業可基于它的強大推理能力開發商業應用,高校、科研院所可基于它開展 AI for Science 等科研工作。

捅破開源天花闆:通義千問72B、1.8B模型開源,最小端側都能跑
捅破開源天花闆:通義千問72B、1.8B模型開源,最小端側都能跑

此外,一起釋出的還有一個小模型 ——Qwen-1.8B,以及一個音頻模型 Qwen-Audio。Qwen-1.8B 和 Qwen-72B 一小一大,加上之前已經開源的 7B、14B 模型,組成了一個完整的開源光譜,适配各種應用場景。Qwen-Audio 和之前開源的視覺了解模型 Qwen-VL 以及基礎文本模型則組成了一個多模态光譜,可以幫助開發者把大模型的能力擴充到更多真實環境。

捅破開源天花闆:通義千問72B、1.8B模型開源,最小端側都能跑

通義千問最小開源模型Qwen-1.8B,推理2K長度文本内容僅需3G顯存。看來,希望在手機等端側部署語言模型的開發者可以上手一試。

這種「全尺寸、全模态」的開源力度,業界無出其右。Qwen-72B 更是擡升了開源模型尺寸和性能的天花闆。為了驗證這一開源模型的能力,機器之心在阿裡雲魔搭社群上手體驗了一番,并讨論了通義千問開源模型對于開發者的吸引力所在。

第一手體驗:

推理更強,還能自定義角色

下圖是 Qwen-72B 的使用者界面。你可以在下方「Input」框輸入想要問的問題或其他互動内容,中間框會輸出答案。目前,Qwen-72B 支援中文和英文輸入,這也是通義千問和 Llama2 差别比較大的一點。此前,Llama2 中文支援不佳讓很多國内開發者很頭疼。

捅破開源天花闆:通義千問72B、1.8B模型開源,最小端側都能跑

體驗位址:https://modelscope.cn/studios/qwen/Qwen-72B-Chat-Demo/summary

我們了解到,在中文任務上,Qwen-72B 霸榜了 CEVAL、CMMLU、Gaokao 等測評,尤其在複雜語義了解、邏輯推理方面頗為拿手。先來一個包含中國武俠小說人物元素的易混淆句子分析,Qwen-72B 顯然 get 到了幾個「過」的不同意思。

捅破開源天花闆:通義千問72B、1.8B模型開源,最小端側都能跑

類似容易繞暈人的另一個句子也解釋得很清楚。

捅破開源天花闆:通義千問72B、1.8B模型開源,最小端側都能跑

再來一個經典的「農夫、狐狸、兔子和蘿蔔」安全過河遊戲,Qwen-72B 也能應答如流。

捅破開源天花闆:通義千問72B、1.8B模型開源,最小端側都能跑

既然 Qwen-72B 支援英文輸入,我們也要來考一考它的雙語互動能力怎麼樣?簡單詩歌的翻譯當然不在話下。

捅破開源天花闆:通義千問72B、1.8B模型開源,最小端側都能跑

Qwen-72B 還很懂道地的美式俚語。

捅破開源天花闆:通義千問72B、1.8B模型開源,最小端側都能跑

數學小能手上線

數學一直是考驗大模型的重要一關。資料顯示,Qwen-72B 在 MATH 等測試中相較于其他開源模型取得了斷層式的領先優勢,那實測效果怎麼樣呢?首先考它一道經典的擲骰子機率題,顯然,它沒有被難倒。

捅破開源天花闆:通義千問72B、1.8B模型開源,最小端側都能跑

雞兔同籠問題也來一道,回答無誤,隻是解題過程有點特别。

捅破開源天花闆:通義千問72B、1.8B模型開源,最小端側都能跑

兩個瓶子裝水問題也能迎刃而解。

捅破開源天花闆:通義千問72B、1.8B模型開源,最小端側都能跑

化身林黛玉、孔老夫子

賦予大模型個性化角色是此次 Qwen-72B 的一大特色。得益于其強大的系統指令能力,你隻需要設定提示詞就可以定制自己的 AI 助手,讓它擁有獨特的角色、性格、腔調等。

我們先讓它以林黛玉的語氣回複。

捅破開源天花闆:通義千問72B、1.8B模型開源,最小端側都能跑

再讓它化身孔老夫子,諄諄教誨撲面而來。

捅破開源天花闆:通義千問72B、1.8B模型開源,最小端側都能跑

東北、天津等各地方言腔調也能脫口而出。

捅破開源天花闆:通義千問72B、1.8B模型開源,最小端側都能跑
捅破開源天花闆:通義千問72B、1.8B模型開源,最小端側都能跑

這麼好的效果是怎麼實作的呢?根據阿裡雲公布的技術資料,Qwen-72B 的推理性能提升其實離不開資料、訓練等幾個層面的優化。

在資料層面,目前通義利用了高達 3T tokens 的資料,詞表高達十五萬。據通義千問團隊的人透露,模型還在持續訓練,未來還會吃更多高品質資料。

在模型訓練上,他們綜合利用了 dp、tp、pp、sp 等方法進行大規模分布式并行訓練,引入 Flash Attention v2 等高效算子提升訓練速度。借助阿裡雲人工智能平台 PAI 的拓撲感覺排程機制,有效降低了大規模訓練時的通信成本,将訓練速度提高 30%。

累計超150萬的下載下傳量是怎麼來的?

從上面的測評結果來看,以 Qwen-72B 為代表的通義千問系列開源模型的确給了開發者很多選擇它們的理由,比如比 Llama 2 更強的中文能力。

有鹿機器人創始人、CEO 陳俊波就提到,他們在做産品時把市面上能找到的大模型都做過實驗,最後選擇了通義千問,因為「它是目前至少在中文領域能找到的智能性表現最好的開源大模型之一」。

那為什麼不用閉源模型呢?中國能源建設集團浙江省電力設計院有限公司系統室專工陶佳提到,國外的模型(比如 GPT-4)能力很強,但是 API 調用不便,而且 B 端使用者更喜歡自己上手定制,API 能做的事還是太少。

捅破開源天花闆:通義千問72B、1.8B模型開源,最小端側都能跑

模型的可定制性也是陳俊波比較在意的一個點。他說,他們需要的不是一個智能性水準一成不變的大語言模型,而是随着企業資料的積累能變得越來越聰明的大語言模型,「閉源大模型顯然做不到這一點,是以在我們的業态裡面,終局一定是開源模型。」

在談到利用通義千問開源模型搭建應用的感受時,陶佳描述說,「在我試過的幾款開源模型中,通義千問是最好的,不僅回答準确,而且『手感』很好。『手感』這個東西比較主觀,總的來說就是用起來最符合我的需求,沒有那些稀奇古怪的 bug。」

其實說到「需求」,幾乎每一個 B 端使用者的需求都離不開「降本增效」,這是開源模型的另一個優勢。一份 9 月份的統計顯示,Llama2 -70B 大約比 GPT-4 便宜 30 倍,即使在 OpenAI 宣布降價後,Llama2 -70B 依然保留了數倍的成本優勢,體量小于 70B 的衍生開源模型就更不用說了。這對企業來說是非常有吸引力的。

捅破開源天花闆:通義千問72B、1.8B模型開源,最小端側都能跑

圖源:https://promptengineering.org/how-does-llama-2-compare-to-gpt-and-other-ai-language-models/

例如資料企服品牌瓴羊 Quick BI 産品負責人王兆天就提到,千問的一大優勢是輕量,「在較低成本硬體環境即可部署使用」,這讓 Quick BI 依托通義千問大模型開發的智能資料助手「智能小Q」可以搶占先機,比競争對手更早推出,搶占使用者心智。

捅破開源天花闆:通義千問72B、1.8B模型開源,最小端側都能跑

未來速度聯合創始人、CEO 秦續業的一句話可能能讓很多企業找到共鳴。他說,企業級使用者更在意的是能不能解決問題,而非要求模型能力面面面俱到。企業「問題」有難有易,可調用的資金、算力和面臨的部署要求也存在很大差異,是以對模型的靈活度、成本效益要求都非常高。比如有的企業可能希望讓大模型跑在手機等端側裝置上,而有的企業算力相對充裕,但需要推理能力更強的模型。通義千問剛好為開發者提供了這些選擇 —— 從 1.8B 到 72B,從文字到語音再到圖像,這是一個豐富的開源套餐,總有一款更符合需求。

捅破開源天花闆:通義千問72B、1.8B模型開源,最小端側都能跑

在多個權威測試集上,通義千問 18 億參數開源模型 Qwen-1.8B 的性能遠超此前的 SOTA 模型。

不過,這還不是全部。對于選擇開源使用者的開發者、企業來說,模型是否可持續、生态是否豐富也同樣重要。

「我們沒有資源從頭訓練一個基座模型,選模型的第一個考量就是,它背後的機構能不能給模型很好的背書,能不能持續投入基座模型及其生态建設?為跟風、吃紅利而生的大模型不可持續。」這是華東理工大學 X-D Lab 核心成員顔鑫判斷模型是否可持續的一些标準。

顯然,在看過上半年的「百模大戰」之後,他也擔心自己選的模型會在這場競争中淪為棄子。為了避免這種情況,他選擇了阿裡雲,因為這是國内大廠裡唯一開源大模型的組織。而且,除了通義千問,國内一半以上的頭部大模型都跑在阿裡雲上,基礎設施建設的投入和可持續性毋庸置疑。

再加上,阿裡雲做大模型其實已經有些年頭了,2018 年就開始進行大模型研究,2023 年更是釋放出了「all in 大模型」的信号。這些信号對于關心大模型可持續性的開發者來說是一顆定心丸。顔鑫評價說,「阿裡雲能把通義千問 72B 這麼大尺寸的模型都開源出來,說明在開源上是有決心、能持續投入的。」

在生态方面,顔鑫也說出了自己的考量,「我們希望選擇主流的、穩定的模型架構,它能最大限度發揮生态的力量,比對上下遊的環境。」

這其實也是通義千問開源模型的優勢所在。由于開源比較早,阿裡雲的開源生态其實已經初具規模,通義千問開源模型累計下載下傳量已經超過 150 萬,催生出了幾十款新模型、新應用。這些開發者給通義千問提供了來自應用場景的充沛回報,使得開發團隊能夠不斷優化開源基礎模型。

此外,社群内相關的配套服務也是一個有吸引力的點。陳俊波提到,「通義千問提供了非常友善的工具鍊,可以讓我們在自己的資料上快速去做 finetune 和各種各樣的實驗。而且通義千問的服務非常好,我們有任何需求都能快速響應。」這是目前大部分開源模型提供者所做不到的。

Yann LeCun:

開源對 AI 發展和社會發展都有好處

不知不覺,ChatGPT 已經釋出一周年了,這也是開源模型奮力追趕的一年。在此期間,關于大模型應該開源還是閉源的争論也一直不絕于耳。

在前段時間的一個采訪中,Meta 首席科學家、圖靈獎獲得者 Yann LeCun 透露了他一直以來緻力于開源的理由。他認為,未來的 AI 将成為所有人類知識的存儲庫。而這個存儲庫需要所有人為其做貢獻,這是開源才能做到的事情。此外,他之前還表示,開源模型有助于讓更多的人和企業有能力利用最先進的技術,并彌補潛在的弱點,減少社會差距并改善競争。

在釋出會現場,阿裡雲 CTO 周靖人重申了他們對開源的重視,稱通義千問将堅持開源開放,希望打造「AI 時代最開放的大模型」。看來,更大的開源模型可以期待一波了。