兩隻羊駝掐頭去尾拼一起，屠榜HuggingFace

2023-12-29 13:06:00

夢晨發自凹非寺

量子位 | 公衆号 QbitAI

HuggingFace開源大模型排行榜，又被屠榜了。

前排被清一色的SOLAR 10.7B微調版本占據，把幾周之前的各種Mixtral 8x7B微調版本擠了下去。

SOLAR大模型什麼來頭？

相關論文剛剛上傳到ArXiv，來自南韓公司Upstage AI，使用了新的大模型擴充方法depth up-scaling（DUS）。

簡單來說就是兩隻7B羊駝掐頭去尾，一隻砍掉前8層，一隻砍掉後8層。

剩下兩個24層縫合在一起，第一個模型的第24層與第二個模型的第9層拼接，最後變成新的48層10.7B大模型。

論文聲稱新方法超過傳統擴充方法如MoE，而且可以與沿用基礎大模型完全相同的基礎設施。

不需要門控網絡等附加子產品，針對MoE優化訓練架構了，也不需要自定義CUDA核心來快速推理，可以無縫內建到現有方法中，同時保持高效。

團隊選擇7B規模最強的單體大模型Mistral 7B作為底材，用新方法拼接起來，再超越原版以及MoE版。

同時，經過對齊的Instruct版本也超越對應的MoE Instruct版本。

将縫合進行到底

為什麼是這種拼接方式，論文中介紹來自一種直覺。

從最簡單的擴充方式開始，也就是把32層的基礎大模型重複兩次，變成64層。

這樣做的好處是不存在異質性，所有層都來自基礎大模型，但第32層和第33層（與第1層相同）的接縫處有較大的“層距離”（layer distance）。

之前有研究表明，Transformer不同層做不同的事，如越深的層擅長處理越抽象的概念。

團隊認為層距離過大可能妨礙模型有效利用預訓練權重的能力。

一個潛在的解決方案是犧牲中間層，進而減少接縫處的差異，DUS方法就從這裡誕生。

根據性能與模型尺寸的權衡，團隊選擇從每個模型中删除8層，接縫處從32層連第1層，變成了24層連第9層。

簡單拼接後的模型，性能一開始還是會低于原版基礎模型，但經過繼續預訓練可以迅速恢複。

在指令微調階段，除了使用開源資料集，還制作了數學強化資料集，對齊階段使用DPO。

最後一步，把使用不同資料集訓練的模型版本權重平均，也是把縫合進行到底了。

有網友質疑測試資料洩露的可能性。

團隊也考慮到這一點，在論文附錄中專門報告了資料污染測試結果，顯示出低水準。

最後，SOLAR 10.7B基礎模型和微調模型都以Apache 2.0協定開源。

試用過的網友回報，從JSON格式資料中提取資料表現不錯。

論文位址：

https://arxiv.org/abs/2312.15166

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們，第一時間獲知前沿科技動态

兩隻羊駝掐頭去尾拼一起，屠榜HuggingFace

将縫合進行到底

繼續閱讀

39歲關婷娜住家宅喂羊駝！穿睡衣大秀豐滿事業線，皮膚白皙狀态好

趙本山“禦用老伴”關婷娜豪宅内悠閑養羊駝，盡顯優雅從容

趙本山禦用老伴關婷娜豪宅養羊駝，炫的是自己的富，戳了網友的心

引發熱議“愛寵人士談寵物有望上高鐵，狗狗可以羊駝不行！”

AD差距明顯，羊駝被完爆，許秀躺赢！DK送KT兩連敗！

共話中國經濟新機遇｜通訊：中國市場給秘魯羊駝制品手工藝人帶來更多發展機遇

慶餘年羊駝皇子出軌？劉大錘炸裂爆料讓慶3粉絲七竅生煙

趙本山“禦用老伴”關婷娜，養羊駝，穿低領睡衣身材豐腴來了！

“神獸”羊駝進社群，這場夏日集市有看頭→

喝茶打牌聊天聽本土樂隊演奏與孔雀羊駝合影黃河邊茶攤子越來越洋氣！

你能厘清羊駝和駝羊嗎？快來姑蔑生态城一探究竟！#趣看動物吧#第五期互動福利放送中

大羊駝可治艾滋病？最新研究表明其擁有超強「奈米抗體」

羊駝商場内失禁！網友：果然是新鮮“珍珠”奶茶，即點即做

Meta首款多模态Llama 3.2開源！1B羊駝寶寶，跑在手機上了

李一桐童趣寫真！巨型羊駝裙，少女顔值爆表，搞怪表情盡顯俏皮

非人哉：九月被迫相親，媽媽介紹秃頂海歸博士，爸爸介紹羊駝