ChatGPT迎重磅更新，降價25-75%！解析ChatGPT技術原理

ChatGPT再次進化，迎來大更新和大降價。

當地時間6月13日，OpenAI宣布對其大型語言模型API（包括GPT-4和GPT-3.5-turbo）進行重大更新，包括新增函數調用功能、降低使用成本等多項内容。更新後，嵌入式模型成本下降75%，同時為GPT-3.5-turbo增加了16000（此前為4000）的輸入長度。

主要更新内容：

· 在Chat Completions API 中增加了新的函數調用能力；· 推出新版本GPT-4-0613和GPT-3.5-turbo-0613模型；· GPT-3.5-Turbo上下文長度增長4倍，從4k增長到16k；· GPT-3.5-Turbo輸入token降價25%；· 最先進embeddings model降價75%；· 公布GPT-3.5-Turbo-0301 和 GPT-4-0314 模型的淘汰時間表。

本次更新中，備受關注的是函數調用能力。據華爾街見聞報道，開發者現在可以向GPT-4-0613和GPT-3.5-turbo-0613兩個模型描述函數，并讓模型智能地選擇輸出一個包含參數的JSON（JavaScript Object Notation，一種資料交換的文本格式）對象，來調用這些函數。若将GPT功能與外部工具或API進行連接配接，這種方法更加可靠。

也就是說，GPT不再需要開發者描述複雜的提示語，它自己能夠決定是否動用外部工具來解決問題，不僅顯著提高了反應速度，還大大降低了出錯的可能性。

此外，OpenAI釋出的降價消息也讓不少使用者為之歡呼。官網公告顯示，不同版本降價幅度不同，OpenAI最先進、使用者最多的嵌入模型Text-embedding-ada-002降價75%；使用者最多的聊天模型GPT-3.5-turbo降價25%。OpenAI首席執行官Sam Altman此前在新加坡管理大學演講時表示，OpenAI每三個月左右就能将推理成本降低90%，未來将繼續大幅削減成本。

人工智能時代正在到來。ChatGPT作為一個視窗，讓我們得以提前窺見AI世界。本文對ChatGPT的基本技術原理進行了分析和解讀，可供讀者學習和參考，推薦閱讀。

作者簡介：浙江大學信電學院副教授，2002年清華大學電子工程系專業大學畢業，2007年英國南安普敦大學電子與計算機工程系博士畢業，博士期間的研究方向是人臉識别和說話人識别的融合算法。2007-2009 年在比利時魯汶大學通信與遙感實驗室從事博士後研究工作，研究方向為三維網格數字水印。2009 年12 月起為浙江大學資訊與電子工程學院講師，2013年晉升副教授并擔任資訊與通信工程系副系主任。目前主要研究方向為計算機視覺、機器學習、深度網絡模型壓縮和加速等。在國際頂級期刊和會議上發表論文70多篇，包括TIP, PR, AAAI, CVPR等，主持多項國家和省級科研項目。他的機器學習視訊課程在BILIBILI網站上獲得超過100萬點選量。本文為胡浩基教授在全球數字金融中心（杭州）舉行的“科技向善：強AI時代的變革”人工智能與數字金融研讨會發言。

‍

ChatGPT是由Open AI公司在2022年11月推出的大規模語言模型，它的發展曆史如下圖所示。ChatGPT的英文全稱叫Chat Generative Pre-trained Transformer，翻譯成中文就是 -- 聊天的、生成的、預訓練的Transformer網絡。接下來，我們把chatGPT的這幾個詞，一個一個的詳細講解具體的意思是什麼。

Transformer網絡

首先講一下Transformer網絡，在2013年左右深度學習剛起來的時候，那個時候最主要的網絡結構叫做卷積神經網絡，Covolutional Neural Networks，或者叫做CNN。在2017年左右的時候，Google推出了Transformer網絡。

由于CNN是一個過于階層化的結構，是以在CNN最開始的幾層隻能看到資料的局部情況，而看不到整個資料的全局情況，是以Google推出了基于注意力機制（Attention Mechanism）的Transformer網絡，使網絡在最初的幾層也能看到這整個資料的全局資訊。

至于為什麼叫Transformer網絡，據我考證，那時因為那個時候正好在放映電影變形金剛5（Transformer 5）。這張圖中分别給出了是CNN和Transformer的網絡結構，同時我們也給出了CNN和Transformer網絡特點之間的一些對比。

“傳統的”卷積神經網絡（Convolutional Neural Networks, CNN）基本結構圖

Transformer網絡基本結構圖

CNN與Transformer特點對比

參考文獻

(1) LeCun Y., Bottou L., Bengio Y., and Haffner P., Gradient-based learning applied to document recognition, Proceedings of the IEEE, pp. 1-7, 1998 (深度學習創始人之一Yann LeCun在1998年首次提出現在使用的卷積神經網結構).

(2) A. Vaswani et al., Attention is all you need, in NIPS2017, pp. 1-11, 2017 (Google在人工智能頂級會議NIPS上發表的論文首次提出了Transformer網絡結構).

在2019年左右，Google把Transformer應用在自然語言處理的各種任務上。例如，最早基于Transformer的BERT模型，将Transformer應用在自然語言處理上，獲得很大成功。是以，從2019年起，自然語言處理這個領域就基本上确定了Transformerer比CNN更好。

在另外的領域，例如計算機視覺，什麼時候我們才真正的覺得Transformer比CNN好呢？這個時間大概是在2021年，相對來說晚了兩年。這裡是微軟亞洲研究院的一篇論文，它提出了Swin Transformer。人類的視覺是有層級的，而Transformer這種過于并行化的網絡結構打破了視覺的層級，是以Transformer在計算機視覺領域的效果不好。

Swin Transformer對傳統的Transformer進行了改進，我個人的觀點是，Swin Transformer吸收了CNN中的分層結構并有效融入到傳統的Transformer當中，形成了一個“CNN+Transformer”的模型，使得Transformer在視覺任務中的效果有了明顯提升。是以說Transformer從2021年開始，逐漸取代了CNN成為人工智能領域的主流網絡。

BERT是較早将Transformer用在自然語言處理的成功模型

Swin Transformer是将Transformer用在計算機視覺領域的成功模型

參考文獻(1) J. Devlin, M. –W. Chang, K. Lee and K. Toutanova, BERT: Pretraining of Deep Bidirectional Transformers for Language Understanding, in NAACL-HLT 2019, pp. 4171–4186, 2019. (BERT将Transformer網絡應用于自然語言了解中，在多個自然語言處理任務上獲得很好效果，這一研究成果推動了charGPT的出現).(2) Z. Liu, Y. Lin, Y. Cao, H. Hu, Y. Wei, Z. Zhang, S. Lin and B. Guo, Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows, in ICCV 2021, pp. 1-14, 2021 (Transformer在計算機視覺領域的表現不夠好，直到2021年微軟亞洲研究院的這篇Swin Transformer，将CNN的一些結構和Transformer結合，終于獲得了很好的效果，這一研究成果推動了Transformer在計算機視覺領域的普及).

從2021年開始，我們實驗室也基于Transformer也做了一些工作，尤其是在醫學圖像處理領域。如下是我們基于Transformer對二維乳腺自動超聲惡性良性腫瘤圖像和三維牙齒口掃圖像進行分割，獲得了很好的結果。

(a)乳腺自動超聲惡性良性腫瘤分割

(b)三維牙齒口掃圖像的分割

我們實驗室的工作将Transformer應用于醫學圖像處理的工作

參考文獻：

(1)Xiner Zhu, Haoji Hu, Hualiang Wang, Jincao Yao, Wei Li, Di Ou, Dong Xu, Region Aware Transformer for Automatic Breast Ultrasound Tumor Segmentation, in Medical Imaging with Deep Learning, MIDL2022, Zürich, Switzerland, pp. 1-15, 2022.

(2)Zuozhu Liu, Xiaoxuan He, Hualiang Wang, Huimin Xiong, Yan Zhang, Gaoang Wang, Jin Hao, Yang Feng, Fudong Zhu, Haoji Hu, Hierarchical Self-supervised Learning for 3D Tooth Segmentation in Intra-oral Mesh Scans, IEEE Transactions on Medical Imaging, vol. 42, no. 2, pp.467-480, 2023.

關于Pre-trained 預訓練

接下來我們講第二個詞-- Pre-trained，即預訓練。預訓練是什麼意思呢？一般來說計算機進行的是監督學習。例如這張圖中，以英文翻譯中文為例，輸入“I eat an apple”，輸出是“我吃蘋果”。接着輸入“You eat an orange”，輸出是“你吃橘子”。當有很多輸入時，我們可以設計算法，讓計算機自動發現 “I”可能對應“我”；“You”對應“你”；“Apple”對應“蘋果”；“Orange”對應“橘子”。以上就是用監督學習的方式教計算機英文翻譯中文的例子。

監督學習有一個很大的問題，就是它需要大量的人工标注，耗時耗力。有沒有可能讓計算機采用無監督、沒有标注的資料來做學習呢？這就是要說到預訓練技術了。以下是Open AI關于預訓練的第一篇論文。這裡有一個花絮，我以前看過這篇論文，但在準備這次演講的PPT時忘掉昨天這篇論文的具體名字了，于是我就問chatGPT：“請告訴我Open AI關于預訓練的第一篇論文的名字”，然後它就直接給我找到了！是以我強烈建議大家好好用一下chatGPT，還是挺有意思的。

Open AI做的預訓練大緻是什麼意思呢？首先它玩兩個遊戲，一個叫做文字接龍，一個叫做填字遊戲。文字接龍就是給計算機一段文字，讓計算機猜後面的一個字或者一個詞是什麼，這樣的方式就不需要人工去标注這段文字了。第二個遊戲就是填字遊戲，比如我把中間的字隐去，讓計算機根據整個語句環境猜中間的一個字是什麼，填字遊戲也不需要人工去标注文字。

是以，利用預訓練，就可以完全利用整個網際網路沒有标注的各種各樣的資料來做這樣的文字接龍和填字遊戲。是以，可以用于預訓練的資料非常多。利用預訓練，我們可以獲得一個ChatGPT的“初步大腦”。

接下來可以通過特定的任務來微調這個“初步大腦”，比如說在如下論文中，首先在104種語言的網站上進行預訓練。經過預訓練後，用一個相對少的有标注的資料進行微調，實驗表明，經過預訓練後，用這麼少的資料進行微調就能夠得到非常好的結果。這就像我們人腦，經過了大量基礎知識的學習後，隻要稍微用一點點專業知識來“微調”，就能學會那些專業知識了。

接下來我們講預訓練帶來的兩個“魔法”。第一個叫做觸類旁通。例如，在我們用104種語言做預訓練後獲得了一個初步的模型。然後我們隻用少量的英文資料做閱讀能力測驗訓練，前面說過，這個經過預訓練的模型很快就學會了做英文閱讀能力測驗。

更令人吃驚的事情是，我們完全沒有用中文對模型進行微調，但這個模型在學會英文閱讀能力測試的同時，自動也就會了中文閱讀能力測試！換句話說，預訓練能夠将一種語言上的任務遷移到另外的語言上去。這是因為我們針對各種語言進行了預訓練，是以chatGPT學到了各種語言的隐含關系，是以它就能夠根據這樣的隐含關系，把在一個語言上的任務遷移到另外的語言上去。

預訓練的魔力之二，就是剛才張岩老師講的湧現能力，随着模型和資料增加到一定的地步了，整個模型的能力會快速的增長。由于張老師很詳細的講到了這一點，我就不再贅述了。

除了預訓練之外，ChatGPT還用了一個關鍵技術，叫做強化學習。這是OpenAI描述ChatGPT中如何進行強化學習的論文-- Reinforcement Learning with Human Feedback (RLHF)。翻譯過來就是，帶有人類回報的強化學習。它大概說的是什麼意思？

當我們經過了預訓練，經過了具體任務的微調還是不夠的，我們要把人的價值觀展現給計算機。人對于什麼文章是好的，什麼文章是不好的，需要加以評判，并把這個評判結果告訴計算機，這樣計算機就能生成人類覺得好的文章。比如說，你問“世界上最高的山是哪一座？”，GPT有可能接下面一句話，“這是一個好問題”。這個答案雖然邏輯是通的，但是它的回答是不好的。是以我們需要有一個人類的老師來監督，對好的回答給個高分，對不好的回答給個低分。比如說，你問“世界上最高的山是哪一座？”如果回答是“珠穆朗瑪峰”，那麼要給一個高分；而如果回答“這是一個好問題”，就要給個低分。OpenAI公司内部有一套詳細的實訓手冊，就是要統一告訴進行标注的人類老師什麼答案是好的，什麼答案是不好的。它要有一個非常統一的對于好和不好答案的認識，這樣才能讓訓練變得更加的統一，容易收斂。

講完ChatGPT的基本原理後，接下來我們講一下對ChatGPT的評價。張岩老師的PPT裡面講到很多好的評價，是以我要講一點點不好的評價。

第一個評價來自深度學習創始人之一Yann LeCun。“ChatGPT提供支援的大型語言模型并不是什麼新鮮事，所用的技術在ChatGPT出現之前已經存在多年了”。這句話當然是對的，但是我覺得如果說能夠把已有的技術組合起來，達到現在的技術沒有達到的一個新高度，我個人認為就是“新鮮事”。下面這句話我覺得比較關鍵，“ChatGPT不知道世界的存在。它們對實體現實一無所知，它們沒有任何背景知識，它們找不到答案，它們經常産生令人信服的廢話”。

另外一個不好的評價來自語言學家喬姆斯基，他對比了ChatGPT和人腦之間的差別說：“人腦不像ChatGPT及其同類産品那樣，是一個笨重的模式比對統計引擎，狼吞虎咽地處理數百兆位元組的資料，并推斷出最為可能的對話回應。人類的大腦是一個極為高效甚至優雅的系統，隻需要少量的資訊即可運作；它尋求的不是推斷資料點之間的粗暴關聯，而是創造解釋。”目前的深度學習，包括ChatGPT運用的這種基于統計的學習方式，在語言學家喬姆斯基看來與我們人類大腦的運作是背道而馳的。

相關思考

最後講一些我對ChatGPT的思考。網上已經有了各種人的各種思考了，基本把能夠說的話都說完了，是以思考得有新意還是比較困難的。我想了三個相對有新意的點，分享給大家。

第一個思考，世界的規律到底是簡單的還是複雜的？我們小時候學到牛頓力學和萬有引力定律，用幾個公式來總結和解釋世界的規律。但是從深度學習開始，以ChatGPT為代表的深度模型逐漸占據統治地位後，我們将那麼多資料扔進一個那麼多參數的大模型中，我們已經完全不能了解和把握這個大模型的内在規律了。

這個世界的規律真的複雜到需要我們創造一個大模型去描述它嗎？還是說世界的規律仍然是簡單的，我們目前隻是欠缺認識這種簡單規律的能力？未來人類的科學研究是否還可能回到以前那種尋找簡單規律的模式呢？下面的第一張圖說明，牛頓力學和萬有引力定律把太陽和行星的運動描繪得那麼準确，而它用的隻是幾個數學公式而已，這與現在以深度學習為代表的那種人工智能是完全背道而馳的。

第二個思考，人類的語言是無限創造力和發展可能性的源泉，還是人工智能可以窮盡的符号的排列組合？在這裡，我想起了高中國文的課文《最後一課》，語言是一個民族的驕傲，也是我們人類的創造力源泉。如果離開了語言，我們将沒有文學、藝術，詩歌和音樂，也沒有進行任何思考的工具。但是，現在ChatGPT用這種粗暴的統計手段，将語言變成了符号的排列組合問題，那麼人作為一種主體，尊嚴何在？一個重要的問題是，ChatGPT所生成的那些文字，是否跟人類産生的文字有本質的差別呢？如果有差別，發現并找出這種差別，是有關人類生存尊嚴的重要問題。

第三個思考是關于經濟和金融領域。今天是一個經濟和金融的論壇，我想和大家讨論在公司創業過程中“利”和“義”的關系問題。Open AI這家公司自稱是一個非盈利機構，公司的目标是實作通用的人工智能以便造福人類社會。當然，他們這樣說，不見得會這樣做。這裡我想到，在2019年我去參加一個人工智能大會NeurIPS的時候，大會請了一個美國開公司的女性CEO做報告，這個CEO明确的說，我們公司不追求利潤，也不追求上市，我們的目标是為了在全人類實作公平。這是一張她解釋平等和公平差別的圖，平等是給每一個人一個小闆凳，而公平是給那些矮的人兩個小闆凳，而對那些高的人就不要給他小闆凳了。

以上話題涉及到經濟和金融政策，也涉及到價值判斷，這些領域我都不是專家，是以我很想聽一下大家的見解，和大家一起共同學習進步。

End.

往期推薦這裡有一份數字人才的就業地圖

137部數字經濟政策，透露了什麼信号？

三大網際網路巨頭的雲計算盤點

隐私計算九問！涉及斷直連、ChatGPT

以App為支點，宇宙行進擊AGI時代

藍色的支付寶，底層越來越“綠”

零售業務營運突圍，銀行表情包走“心”

上抖音“零壹朋友圈”，零聽大咖說征信“資料經濟的崛起與個人隐私的博弈”精華視訊已上線

轉載、合作、交流請留言，

資料與商業合作：13261990570（微信同号）

客服微信：lycj002

來個“分享、點贊、在看、設為星标”👇

ChatGPT再次進化，這次迎來了大更新和大降價。當地時間6月13日，OpenAI宣布對其大型語言模型API（包括GPT-4和GPT-3.5-turbo）進行重大更新，包括新增函數調用功能、降低使用成本等多項内容。更新後，嵌入式模型成本下降75%，同時為GPT-3.5-turbo增加了16000（此前為4000）的輸入長度。

主要更新内容：

· 在Chat Completions API 中增加了新的函數調用能力；

· 推出新版本GPT-4-0613和GPT-3.5-turbo-0613模型；

· GPT-3.5-Turbo上下文長度增長4倍，從4k增長到16k；

· GPT-3.5-Turbo輸入token降價25%；

· 最先進embeddings model降價75%；

· 公布GPT-3.5-Turbo-0301 和 GPT-4-0314 模型的淘汰時間表；

本次更新中，備受關注的是函數調用能力。據華爾街見聞報道紹，開發者現在可以向GPT-4-0613和GPT-3.5-turbo-0613兩個模型描述函數，并讓模型智能地選擇輸出一個包含參數的JSON（JavaScript Object Notation，一種資料交換的文本格式）對象，來調用這些函數。若将GPT功能與外部工具或API進行連接配接，這種方法更加可靠。

也就說，GPT不再需要開發者描述複雜的提示語，它自己能夠決定是否動用外部工具來解決問題，不僅顯著提高了反應速度，還大大降低了出錯的可能性。

從戰勝全球頂尖棋手的 AlphaGo 到 OpenAI 創造的大語言模型 ChatGPT，人工智能正在一步一步地解構人類的思考邏輯和語言模式。

ChatGPT迎重磅更新，降價25-75%！解析ChatGPT技術原理

關于Pre-trained 預訓練

相關思考

繼續閱讀

linux fork詳解

AI繪畫技術原了解析

NOMA機制下可見光通信系統多元度性能研究1.1NOMA機制下VLC理論基礎VLC采用強度調制和直接檢測，并且依賴于光波

用于地下分析的壓縮熱波成像壓縮熱波成像是一種以熱波為信号源的成像方法，在地下探測領域有着廣泛的應用。通過對熱波在不同媒體

詳細講述我交易體系的用法！！前幾天我發了下我的交易系統的簡單構成及原理，主要目的是與大家分享操作的思路，至于有些人說的為

大模型參數高效微調技術原理綜述（一）-背景、參數高效微調簡介

視覺與學習青年學者研讨會，是一個由年輕人為主角，對計算機視覺、機器學習與多媒體技術等相關領域進行學術讨論的科技盛會，許多

電視機技術原理介紹。電視機作為現代家庭不可或缺的娛樂裝置，其背後蘊含了豐富的科學原理和複雜的工作機制。本視訊旨在客觀、科

帶你攻破你很可能存在的Java技術盲點之動态性技術原理指南

豐田汽車的混動技術是什麼來頭？我一直對汽車的混動技術很感興趣，尤其是豐田汽車的混動技術。豐田汽車的混動技術一直是行業内的

單從技術上講，星鍊計劃到底有多少價值？大家一聽星鍊計劃覺得很牛。星鍊的基本目标就是依靠衛星技術，在不受地面設施限制的情況

IP地理位置定位技術原理

淺談納米銀線制備及應用研究一、納米銀線新型制備工藝研究納米銀線(AgNWs)由于其優良的導電性、導熱性、柔韌性及納米材料

掃描技術原理是什麼？好用的掃描計數器分享

#什麼是超超臨界發電?#超超臨界發電是一種高效能的發電技術。它采用超高溫和超高壓力的技術原理，在發電過程中充分利用燃燒和