天天看點

本周釋出了哪些重要模型和應用?|智能周報(上)

作者:第一财經YiMagazine

撰文 :江睿傑、張司钰、陸彥君、徐弢、楊秋秋

編輯 :吳洋洋

OpenAI的AI搜尋産品傳了一周也沒有真的釋出,新的傳聞稱,它會在下周二之前釋出該産品,因為周二就是Google的I/O開發者大會。而微軟會在周四召開其Build開發者大會,這意味着,即使OpenAI到時不釋出ChatGPT Search,下周也會充滿交鋒。

一些鋒芒已經在本周釋放。過去5天,全球有至少4個值得關注的模型釋出,其中之一是DeepMind釋出的AlphaFold 3,雖然在準确率上仍然可能趕不上人類科學家,但在預測次元上,它已遠超人類。簡單來說,這個能預測分子結構的模型在2018年剛剛面市時,還隻能預測二維的蛋白質序列;3年後,它開始可以預測蛋白質的三維結構;又過了兩年,2023年,它就可以預測比蛋白質更多的分子了,包括RNA以及小分子「配體」;現在,其最新模型不僅可以預測這些分子的結構,還能動态地預測這些分子間的互相作用。有了這個工具,新藥研發的效率将大大提升,這會是一個價值千億美元的生意。

在此簡述一個分子結構預測模型的發展史,是想提醒有關AI的另一個事實:泡沫雖然存在,但創新遠未停止。而且這種創新是各個次元上的。本周,一家叫「深度求索」的中國公司也釋出了一個新模型,令人驚訝的是,其模型推理成本隻有GPT-4的約1/100。除了這種成本上的改良,還有越來越多公司在嘗試将AI應用于各個行業,比如遊戲智能體公司Altera嘗試為遊戲公司開發能陪玩家玩遊戲的AI;AI金融公司Daloopa嘗試用AI從财務報告和投資者示範文稿中為分析師提取群組織資料;合同自動化公司Lexion可以讓法律、銷售、IT、人力資源和财務等部門的人都可以用它建立專業文檔,并使用自然語言就文檔内容提問;Rad AI的新産品則可以自動識别需要後續跟蹤健康狀态的患者,并通過電子郵件、短信或行動電話提醒患者及時複查。

當然,技術上和應用上的進步越快,來自現實的規範和壓力也越大。本周,TikTok宣布将推出AI自動标記功能,以確定其識别為AI生成視訊的内容得到相應标記,成為全球第一個自動标記AI生成内容的社交媒體平台;OpenAI也釋出了AI檢測工具,能識别某張圖檔是否由其DALL·E 3模型生成。

這些規範對行業來說是好消息,不過來自政府的管制就不一定了。本周,有消息稱,美國政府正在考慮采取新的監管措施,限制專有或閉源人工智能模型的出口,并初步計劃限制中國對包括ChatGPT在内的先進AI模型的通路權限,尤其涉及到如果AI能夠被用來設計制造生物武器所需要的蛋白質——這恰恰是DeepMind本周釋出的Alphafold系列模型有能力做的事。如果這些模型被限制出口,從事AI4Science(AI for Science)研究的團隊可能會受到沖擊。

再次,由于篇幅,我們的周報會分為上下兩篇,上篇關注新模型和新應用,下篇關注新融資和一些公司動态。以下為上篇。

Key Points

新模型

AlphaFold 3釋出,一個1000億美元的生意來了;

微軟自研5000億參數大模型MAI-1,由Inflection創始人挂帥;

阿裡雲釋出通義千問2.5,對标GPT-4 Turbo;

「深度求索」釋出低成本模型DeepSeek-V2,API價格隻有GPT-4的1/100;

Hugging Face釋出機器人開源代碼;

新應用

Google嘗試讓iPhone使用者也用上Circle to Search;

Grok AI在X中總結新聞;

TikTok将自動标記AI生成内容;

OpenAI釋出AI檢測器。

新模型

AlphaFold 3釋出,一個1000億美元的生意來了

5月9日,Google DeepMind和Isomorphic Labs釋出了一個用于藥物研發的新AI模型AlphaFold 3,它能夠精确預測蛋白質、DNA、RNA,以及小分子配體(許多藥物屬于這一類)等分子的結構及其互相作用。

AlphaFold 1能預測二維結構,AlphaFold 2能預測三維結構

2018年,AlphaFold 1是DeepMind的第一個嘗試,它通過深度學習來預測蛋白質的三維結構,在43種蛋白質中成功預測了25種蛋白質的結構。不過這種預測都是二維的「接觸圖」——這種圖是一個二維矩陣,隻告訴研究人員哪些氨基酸是相鄰的,并标注了這種連接配接,但不會告知這些氨基酸的具體位置或它們之間的确切距離。

2021年,DeepMind釋出AlphaFold 2,通過引入一個全新的模型結構,它不再預測接觸圖,而是可以直接預測蛋白質的3D結構。但AlphaFold 2的局限性之一是它無法預測在真實世界中兩個可以互相作用的蛋白的互相作用能力,此次釋出的AlphaFold 3解決了這個問題。

AlphaFold-latest除了蛋白質,還能預測其他分子

2023年10月,DeepMind釋出AlphaFold-latest。「新皮層」曾報道,與AlphaFold 2相比,AlphaFold-latest除了提高蛋白質結構預測的準确性,還擴大了可預測範圍——除了蛋白質折疊,新版本還可以預測配體(與「受體」蛋白結合并導緻細胞通訊方式發生變化的分子)的結構、核酸(DNA和RNA)和含有翻譯後修飾(PTM)的分子。

AlphaFold 3不僅能預測分子結構,還能預測其互相作用

此次釋出的AlphaFold 3主要進步在于能夠預測分子間的互相作用。AlphaFold 3釋出後, DeepMind CEO Hassabis對媒體稱,「生物學是一個動态系統,生物學特性是通過細胞中不同分子之間的互相作用而顯現出來的」。這意味着在基因組學研究中,AlphaFold 3可以展示DNA或RNA片段如何通過特定的化學變化影響細胞功能,進而促進基因活性的精準調控、預防和治療基因表達失調相關的疾病。

論文顯示,這次AlphaFold 3的更新,主要是加入了Diffusion Model(擴散模型),目前的圖像生成模型大多使用了這一技術,包括Midjourney、Runway和Sora。

Hassabis在接受彭博社采訪時稱,通過加速生物學科研,AlphaFold 3将打開超過1000億美元的藥物研發市場。「新皮層」曾報道,DeepMind于2021年成立藥物發現公司Isomorphic(「同構」,意思是資訊系統和生物系統可能具有共同結構),今年1月8日,Isomorphic Labs宣布已與制藥巨頭禮來和諾華達成戰略合作,将應用AI來發現治療疾病的新藥。

參考連結:

https://blog.google/technology/ai/google-deepmind-isomorphic-alphafold-3-ai-model/#future-cell-biology

微軟自研5000億參數大模型MAI-1,

由Inflection創始人挂帥

5月6日,有報道稱微軟正在内部訓練一個名為MAI-1的大語言模型,以期與OpenAI和Google的最強模型競争。

據報道,MAI-1擁有5000億個參數,而OpenAI主推産品GPT-4以及Google旗下Gemini的參數量估計都超過1.5萬億個。該模型整體規模小于競争對手,但已是微軟内部自行開發的最大模型。

本周釋出了哪些重要模型和應用?|智能周報(上)

由于微軟是OpenAI最大的外部投資者,微軟的人工智能應用長期基于GPT-4部署,自身隻開發過一些小模型,比如上月釋出的Phi-3-mini,僅有38億個參數。

MAI-1的開發由新近加入微軟的蘇萊曼(Mustafa Suleyman)挂帥,他是DeepMind和AI初創公司Inflection的聯合創始人。「新皮層」曾報道,3月,微軟以6.5億美元購買Inflection的知識産權并雇用其大部分員工為自己服務,蘇萊曼也在其中。蘇萊曼本身的業務背景偏重産品而非技術,當時微軟宣稱蘇萊曼将組建一個名為Microsoft AI的新團隊,專注推進微軟AI助手應用Copilot和其他消費AI産品及相關研究。微軟新模型據悉并非直接繼承自Inflection的模型Pi,但有可能建立在該公司的訓練資料之上。

本月下旬,微軟将舉辦2024年開發者大會,MAI-1最早有可能在該活動上首次對外展示,不過其确切用途未定。

參考連結:

https://www.theinformation.com/articles/meet-mai-1-microsoft-readies-new-ai-model-to-compete-with-google-openai

阿裡雲釋出通義千問2.5,

對标GPT-4 Turbo

5月9日,阿裡雲釋出通義千問2.5大模型,開源了1100億參數模型Qwen1.5-110B,并宣布将「通義千問」App更名為「通義」。

通義千問2.5對标GPT-4 Turbo

通義千問1.0和2.0分别于去年4月和10月釋出,參數規模分别為300億和千億級别。阿裡雲沒有公布通義千問2.5的參數規模,根據釋出日當天開源的Qwen1.5-110B參數量為1100億推算,通義千問2.5的參數規模至少超過這個數字。

阿裡雲稱,通義千問2.5對标GPT-4 Turbo,單次最長可處理1000萬字,單次最多可處理100個文檔。具體表現為:

  • 多檔案類型支援:PDF,Word,Excel,Mobi等;
  • 多資料格式解析:除了文檔,通義還能了解表格和圖表,可快速歸納總結;
  • 多場景應用:适用于合同、白皮書、研報、财報等;
  • 易于使用和內建,支援Markdown、JSON格式,易于閱讀和編輯。

此外,阿裡雲CTO周靖人還介紹了通義的多模态能力,比如音視訊了解能力在阿裡雲盤的智能速覽、新東方AI課堂筆記中都得以應用。

一個月前,商湯科技釋出其最新大模型「日日新5.0」時同樣聲稱對标GPT-4 Turbo。

繼續走開源路線

釋出通義千問2.5當天,阿裡雲宣布開源Qwen1.5-110B(1100億參數)。這是阿裡雲迄今開源的最大模型,也是國内最大的開源模型。此前,國内開源領域最大的模型是阿裡雲的Qwen1.5-72B(720億參數)和的深圳元象科技的XVERSE-65B(650億參數)。

本周釋出了哪些重要模型和應用?|智能周報(上)

阿裡雲迄今已釋出超過10個開源模型。

阿裡雲稱,Qwen1.5-110B模型在MMLU、TheoremQA、GPQA等基準測評中超越了Meta的Llama-3-70B(700億參數)模型。此外,通義還開源了視覺了解模型Qwen-VL、音頻了解模型Qwen-Audio、代碼模型CodeQwen1.5-7B、混合專家模型Qwen1.5-MoE。

效仿Gemini和Claude,通義千問也給模型劃分了size

為适應不同場景使用者的需求,通義推出參數規模橫跨5億到1100億的8款大語言模型:小尺寸模型如0.5B、1.8B、4B、7B、14B,可在手機、PC等端側裝置部署(類似于Gemini nano和Claude Haiku);大尺寸模型如72B、110B支援企業級和科研級應用(類似于Gemini Ultra和Claude Opus);中等尺寸如32B則試圖在性能、效率和記憶體占用之間找到平衡點(類似于Gemini Pro和Claude Sonnet)。

B端是業務重心,C端應用更名

阿裡雲稱,通義通過阿裡雲已服務超過9萬家企業,通過釘釘服務企業超過220萬家。小米旗下的AI助手「小愛同學」與通義大模型在圖檔生成、圖檔了解等領域已有合作;微網誌、衆安保險、完美世界遊戲等公司也宣布接入通義大模型。

面向企業端,阿裡雲釋出百煉平台2.0版,提供企業級檢索增強(RAG)服務(注:了解什麼是RAG檢索增強,可閱讀《OpenAI、Google、Kimi都在「Perplexity化」,誰是Perplexity?》),以企業資料對大模型做知識增強,提供專屬的知識庫與檢索服務。阿裡雲的通義靈碼也推出了企業版,這是一款智能編碼助手,掌握近200種程式設計語言。

C端業務方面,通義千問App全面更新,同時更名為「通義App」。

參考連結:

https://mp.weixin.qq.com/s/hU5YDkjiAsAYl8h2akl14Q

深度求索釋出低成本模型,

API價格隻有GPT-4的1/100

5月6日,量化基金公司幻方量化旗下AI公司深度求索(DeepSeek)推出第二代專家混合(Mixture of Experts,MoE)開源大模型DeepSeek-V2,總參數2360億,支援128K上下文視窗,性能對标GPT-4-0613。

DeepSeek-V2的API定價為每百萬token輸入1元、輸出2元,而支援128K上下文GPT-4 Turbo對應的API價格是每百萬token輸入72元、輸出217元——DeepSeek-V2的定價相當于隻有GPT-4的1/100。

「深度求索」的母公司是一家量化投資公司

「深度求索」的母公司是幻方量化,後者是一家使用AI 投資的對沖基金,成立于2015年,由梁文鋒、徐進聯合創立。2021年,幻方量化的資金管理規模曾經達到千億元,2023年年初的規模在600億元左右。

幻方量化核心團隊的成員大多來自于浙江大學。徐進為浙江大學信号與資訊處理博士,創業前在華為上海研究所等公司就職;梁文鋒曾經在浙江大學攻讀人工智能方向。

2018年,幻方量化開始将機器學習、深度學習等技術用于投資組合優化。2021年,幻方量化自研了深度學習訓練平台「螢火二号」,投資10億元,搭載約1萬枚英偉達A100晶片。2023年5月,幻方量化組建獨立研究組織「深度求索」進入生成式AI領域,目标是「探索AGI的本質」。

今年1月,「深度求索」開源MoE大模型DeepSeek,擁有20億、160億以及1450億3個參數尺寸。

參考連結:

https://mp.weixin.qq.com/s/oJ3qdjE1KmcrC6NaMtdpqw

Hugging Face釋出機器人開源代碼

一向專注軟體領域的Hugging Face也入局機器人領域了。5月6日,Hugging Face的機器人項目負責人Remi Cadene宣布推出LeRobot開源代碼庫,形容它對機器人的意義就如同「Transformer架構之于NLP(自然語言處理)」。

Remi Cadene是誰?

Remi Cadene兩個月前加入Hugging Face後開始在法國巴黎搭建團隊,主要招募具身機器人工程師。此前,他先後在特斯拉自動駕駛汽車部門與人形機器人Optimus團隊擔任科學家。Cadene表示,他将在Hugging Face建立一個真正的開源機器人項目,因為「人工智能開發的下一步是将其應用到實體世界」,Cadene稱團隊「正在圍繞機器人人工智能開展以社群為驅動的工作,并且向所有人開放」。

LeRobot是什麼?

LeRobot是一個可以共享、有可視化資料、可訓練最新模型的多功能庫。使用者可以通路大量預訓練模型,加速項目程序。另外,LeRobot與實體模拟器無縫內建,允許那些沒有實體機器人硬體的開發者在虛拟環境中模拟和測試AI模型。

Hugging Face表示,LeRobot開源是一項戰略決策,為的是避免權力和創新集中在少數公司手中。Hugging Face是一家總部位于紐約的AI獨角獸公司,估值約45億美元,主營業務均為軟體,包括開源AI模型庫和AI助手Hugging Chat Assistants。

參考連結:

https://venturebeat.com/automation/hugging-face-launches-lerobot-open-source-robotics-code-library/

新應用

Google嘗試讓iPhone使用者也用上Circle to Search

5月8日,Google的Google Lens設計經理Minsang Choi在社交平台X上分享了Google App iOS團隊開發的快捷方式,允許使用者在iPhone 15 Pro上實作Circle to Search功能。「新皮層」曾報道,Circle to Search是今年早些時候Google推出的視覺搜尋功能,使用者可以截取螢幕并查找使用者選擇要查找的内容。

不過該功能此前是安卓獨有的,曾最先登陸三星的首款AI手機Galaxy S24。如今,Google試圖通過Google Lens在蘋果的iOS裝置上實作類似功能。iOS使用者可以建立iOS快捷方式,在對螢幕截圖後執行Google Lens程式,實作快速複制文本、翻譯或執行視覺搜尋的功能,使用者還可以通過添加文本來進一步查詢。

本周釋出了哪些重要模型和應用?|智能周報(上)

不過,該快捷方式隻支援對完整螢幕截圖的搜尋,使用者無法單獨在螢幕截圖上圈出或畫出他們想要查找的内容。此外,Chrome版本的Circle to Search或類似功能也正在浏覽器上測試,或将在之後推出。

蘋果目前正在與包括OpenAI、Google、百度等在内的公司談判,以便将其大模型應用于蘋果裝置中。不過與此同時,蘋果也在開發自己的模型,尤其是能夠讀懂使用者螢幕的那一類模型。比如「新皮層」曾報道過的ReALM(Reference Resolution As Language Modeling),該研究關注如何讓大模型了解手機螢幕上的視覺元素,以及Ferret-UI,它能夠「看懂」手機的UI界面并執行相應任務。

參考連結:

https://9to5google.com/2024/05/07/google-lens-circle-to-search-iphone/

Grok AI在X上總結新聞

5月3日,社交平台X宣布在「為你推薦」闆塊推出名為「Stories」的新功能,它通過馬斯克旗下xAI公司開發的Grok模型工作,可以為使用者總結當下熱門新聞和事件的概要。目前,該功能僅限付費的X Premium訂閱使用者使用。

馬斯克稱,他的想法是,利用人工智能融合突發新聞和使用者評論,建構實時事件摘要,再鼓勵使用者通過與Grok聊天獲得更多事件相關資訊。但是,Grok不是從新聞報道中總結摘要,而是根據使用者在X平台釋出的文章彙總資訊。這可能是為了讓Grok避免新聞出版機構的投訴。

不少網頁浏覽器也已經開始通過AI總結搜尋結果、生成摘要資訊,包括Google開發的生成式AI搜尋平台SGE、微軟旗下的必應浏覽器以及Arc浏覽器等。

參考連結:

https://techcrunch.com/2024/05/03/x-launches-stories-on-x-delivering-news-summarized-by-grok-ai/

TikTok将自動标記AI生成内容

5月9日,TikTok宣布将推出AI自動标記功能,以確定其識别為AI生成視訊的内容得到相應标記,包括使用Adobe的Firefly工具、TikTok自己的AI圖像生成器和OpenAI的Dall·E制作的内容都将被識别并标記。這使得TikTok成為第一個自動标記某些人工智能生成内容的社交媒體平台。Google、微軟、索尼、OpenAI等大公司也在探索将該技術嵌入各自的AI工具Meta本月早些時候表示,它将開始檢測Google、OpenAI、微軟、Adobe、Midjourney和Shutterstock等公司由AI生成的内容,并為它們貼上「AI制作」标簽。

參考連結:

https://techcrunch.com/2024/05/09/tiktok-automatically-label-ai-generated-content-created-other-platforms/

OpenAI釋出AI檢測器,拟參與制定行業AI檢測标準

5月7日,OpenAI宣布推出專用AI檢測工具,能識别某張圖檔是否由其DALL·E 3 模型生成,準确率高達98%。同日,OpenAI還宣布加入C2PA執行委員會,計劃參與制定C2PA标準。C2PA全稱是「内容來源和真實性聯盟」(the Coalition for Content Provenance and Authenticity),由Adobe、ARM、英特爾、微軟和資料驗真平台Truepic聯合組建。

OpenAI從今年年初就已經在DALL·E 3創作和修改的圖檔中置入C2PA中繼資料,并計劃在視訊生成模型Sora大範圍普及之後在其生成的視訊中也置入C2PA資料以資識别。為避免置入的C2PA資料被删除或篡改,OpenAI正在開發新方法,包括實施防篡改水印以及研發檢測分類器。後者的原理是使用AI來判斷一項内容是否由AI生成。

OpenAI已于5月7日當天向首批外部測試人員開放通路權限。該分類器可以有效處理常見的修改,如壓縮、裁減、飽和度更改等,但對其他修改的判斷正确率有所下降,如果圖檔由其他AI模型生成,分類器的正确率也會下降。

參考連結:

https://openai.com/index/understanding-the-source-of-what-we-see-and-hear-online/

-END-

本周釋出了哪些重要模型和應用?|智能周報(上)

OpenAI、Google、Kimi都在「Perplexity化」,誰是Perplexity?

五一期間,這兩款AI火了|智能周報(上篇)

人形機器人在矽谷變熱|智能周報(下篇)

Rokid祝銘明:「成為下一個iPhone還是下一個諾基亞」讓人焦慮

本周釋出了哪些重要模型和應用?|智能周報(上)

繼續閱讀