7年内超級AI将問世！OpenAI宣布20%算力投入，4年内控制超級智能

大家好，我是天使投資人陳雨墨，緻力于高新戰略産業研究與投資。今天想和鐵粉們交流一個話題：《7年内超級AI将問世！OpenAI宣布：20%算力投入，4年内控制超級智能》。

一、20%算力用來解決AI失控問題：

為了控制、引導超級智能對齊問題，OpenAI組建了一支由Ilya Sutskever（OpenAI聯合創始人兼首席科學家）和Jan Leike上司的人工智能對齊團隊——Superalignment。

同時該團隊也是對OpenAI現有工作的補充，可提升ChatGPT等産品的安全性，包括非法濫用、經濟破壞、虛假資訊、偏見和歧視、資料隐私和其他可能出現的問題。

他們預測，超智能AI（即比人類更聰明的系統）可能在這個十年（2030年前）就會到來，人類将需要比目前更好的技術來控制超智能AI，是以需要在所謂的“一緻性研究”方面取得突破，該研究的重點是確定人工智能對人類有益。

根據他們的說法，在微軟（Microsoft）的支援下，OpenAI将拿出未來四年所獲算力的20%用于解決AI失控的問題。此外，該公司正在組建一個新的團隊來組織這項工作，稱為超級一緻性團隊。

我先用一部電影來解釋下，openai為什麼要建立這個部門吧。

駭客帝國，講的是人工智能控制了全世界，其用人類作為電池，給人工智能系統供電，人類隻能在虛幻中度過一生，最後NEO（基努裡維斯）覺醒，成為救世主，打敗母體，解放人類。

這個裡面一個核心資訊，就是人工智能發展到後期，擺脫了人類的控制，從服務人類，變成了人類的主宰！

過往的各種技術，更多的是訓練AI更拟人化甚至超人化，能更快更好的輔助人類完成各項任務。而openai成立這個部門，更多的是要馴服AI，運用人工智能對齊技術，讓AI遵守人類的道德及法律限制，不能淩駕于人類之上。這個意義，簡直無比巨大

二、什麼是人工智能對齊及實作路徑

人工智能對齊 ➔ 間接規範➔constitutional ai ➔ 人工回報強化訓練

1、什麼是人工智能對齊什麼是人工智能對齊？

簡單來說，就是確定人工智能系統的目标和人類價值觀一緻，使其符合設計者的利益和預期，不會産生意外的有害後果。這聽起來很簡單，但當人工智能變得越來越強大複雜時，問題也會越來越棘手。目前，相比研究如何讓AI更強大，人工智能對齊還是一個較小的研究領域。但實際上，人工智能對齊更像是一場與時間賽跑，我們需要在技術失控前找到解決方案。

2、人工智能實作的路徑是什麼？

A.間接規範性（Indirect Normativity）是最為可行的技術

如何讓AI懂規矩，明白人類的價值觀，目前的做法可以分為兩類——直接規範性和間接規範性。直接規範性是指給AI明确的、詳細的規則來讓其遵守。直接規範性包括康德的道德理論、功利主義。這個做法有非常多的弊端，每條規則都有它的漏洞，來填補這些漏洞，我們就需要加入更多的規則。這些明确的規則所包含的意義往往是模糊甚至沖突的。人類的價值觀念以及對價值的權衡過于複雜，難以直接編入AI程式中。是以，有很大一部分人認為需要被編入程式中的更應是一種了解人類價值的過程，也就是間接規範性。

間接規範性不會給AI輸入明确的規範準則，而是讓AI根據一個體系來自己衡量價值，權衡利弊。這是一個更為抽象的系統。我們想要的是一種能夠為自己創造價值體系的人工智能，它将預測并滿足我們未來的需求，同時人類也不會犧牲當下社會的需求。

是以，從未來發展看，間接規範性是最為可行的技術！

B.可擴充監管（Scalable Oversight）

随着人工智能系統規模擴大，對它的監督難度也随之升高。人工智能系統将會解決更多複雜的任務，而人類難以評估這些成果的實際效用。普遍而言，如果人工智能在某一領域的能力超過人類，那麼對其成果的評估和監管就會變得十分困難。為了對這類難以評估的成果作出有效監管，并分辨出人工智能提供的解決方案有效和無效的部分，人類需要花費大量時間和額外的協助。是以，可擴充監管（Scalable Oversight）的目标是減少監管過程所花費的時間、精力和金錢，并幫助人類更好地監督人工智能的行為。

C.“人工回報強化訓練”技術和“Constitutional AI”技術

“人工回報強化訓練”技術和“Constitutional AI”。這兩個研究也是緻力于實作人工智能對齊領域的最前沿的技術。“人工回報強化訓練”技術采用的更多的是直接性規範。RLHF主要依靠人類對 AI 模型的回應進行評級回報，研究人員再将這些人類的偏好回報給模型以告訴 AI 哪些回應是合理的。這就造成了是一個過于依賴人工的技術，使用這個技術讓研究人員會被暴露在各種過激的 AI 回應當中。

與之相比“Constitutional AI”則是一系列的「原則」，其理念更接近間接性規範，将 AI 引導向一個更安全、更有幫助的方向，幫助 AI 系統在沒有人類回報下解決透明度、安全性和決策系統的問題，讓 AI 實作自我管理。

是以來說，人類回報強化訓練是人工智能對齊的基礎性技術。

三、中國相關産業公司

1、神思電子技術股份有限公司

神思電子緻力研發面向垂直行業的大語言模型、人類回報強化訓練及内容生成技術，訓練出百億參數能源行業語言模型。專業化的自然語言模型能準确了解客戶意圖，以最短互動輪數給出答案，問題回複更準、更快，并對無關問題有效攔截。目前，相關産品正在内測階段。

公司智能視訊監控方案邊緣計算模組完成華為Atlas人工智能計算平台Atlas500相容性測試與産品方案移植，加入昇騰生态

2、雲從科技集團股份有限公司

公司在人機互動技術不斷成熟，特别是在ChatGPT橫空出世帶來的“預訓練大模型+人工回報強化訓練” 技術範式對認知技術巨大推動作用下，更堅定了公司人機協同戰略，即以有形象/無形象的“數字人” 為載體的綜合智能體，成為公司後續持續投入研發的重點方向，已在規劃落地過程中。

3、四川新聞網傳媒(集團)股份有限公司

公司組織專門人力，對ChatGPT、人類回報強化訓練等前沿技術、以及大規模預訓練語言模型等進行跟随預研。

4、北京華宇軟體股份有限公司

子公司華宇元典擁有一支具備法律行業豐富從業經驗的專業法律人團隊，并與專業的人工智能專家組成了複合型團隊。可以滿足實施基于人工回報的強化訓練對于法律領域人才能力方面要求。

5、北京海天瑞聲科技股份有限公司

公司的AI大模型訓練資料集建設項目采用人類回報強化訓練模式，基于微調和獎勵模型訓練的方法，以人類撰寫少量的典型問題和标準答案與深度學習階段基礎性标注相結合的模式，生産出市場适用性較強的大模型訓練資料集。

6、奇安信科技集團股份有限公司

公司團隊對用人工回報強化訓練相關的強化學習，大語言模型等技術，已經有長時間的實踐，并取得了多項成果。

【備注】：本文僅作為行業交流，不作為任何其他用途。

7年内超級AI将問世！OpenAI宣布20%算力投入，4年内控制超級智能

繼續閱讀

《連線》調查：大量開發者無緣OpenAI GPT Store分紅，但有機會賺錢

AI連摘諾獎後：AI教父Diss OpenAI，馬斯克借機拉踩，端到端怎麼走

2029年才能盈利？留給OpenAI的時間不多了

OpenAI 釋出實時 API，AI 實時語音時代如何搶占風口？

OpenAI驚天剽竊！20歲創始人自曝代碼結構被抄襲，多智能體陷争議

從非營利組織到估值1570億萬美元的子公司，OpenAI是怎麼做到的

微軟AI老将叛逃，但OpenAI面對新威脅：前CTO或創業挖人！

遊戲科學躍居 Steam 發行商收入榜前列；Adobe 推出 AI 視訊生成器，迎戰 OpenAI 和 Meta；小鵬 P7+預售價 20.98 萬元起，訂單已超 3 萬｜極客早知道

深度：OpenAI大清洗

OpenAI進軍國防的幕後幫手：年入160億美元，狂攬美國政府大單

比OpenAI還早4個月？這款産品如何為專業創作帶來全新體驗

英偉達開源新王登基！70B刷爆SOTA，擊敗GPT-4o隻服OpenAI o1

微軟将終止中國個人 Azure OpenAI 服務，僅企業客戶可用

Google 最出圈的 AI 産品，把 OpenAI CEO 也驚豔了

OpenAI o1與人工智能的過去與未來

AI周報 | 位元組跳動大模型訓練被“投毒”；微軟将終止中國個人Azure OpenAI服務