天天看點

讓機器拟人化,從“人工智障”到“人工智能”

作者:i黑馬
讓機器拟人化,從“人工智障”到“人工智能”

5月27日,創業黑馬在北京舉辦“2023躍遷•黑馬AIGC峰會”。此次大會的主題為“預見新世界,建構新格局”。有“AI專家”之稱的卡耐基梅隆大學計算機學院前副院長、達沃斯世界經濟論壇(WEF)計算機全球未來理事會前主席賈斯汀•卡塞爾,以及360集團、智源研究院、昆侖萬維、雲知聲、藍色光标、萬興科技、知道創宇等衆多行業内企業高層到場,與上千位參會者進行了深入交流。

在峰會現場,雲知聲創始人、CEO 黃偉分享了《通向智享未來之路》主題。

以下為分享内容整理:

雲知聲是創業老兵,過去十年專注在語音識别和自然語言處理,我們的技術領域和大模型是最接近的。5月24日,我們在北京釋出了山海大模型。作為創業公司,分型一下大模型演進之路上的心得。

開始我們希望按照專家的方式去做,希望交給機器一些方法論,十年前,機器開始從錯誤回報裡學習。這都是在過去人工智能技術裡的大概階段和路徑。

今天OpenAI推出了ChatGPT和預訓練模型,整個智能變得更加拟人化,首先我們用非常強大的算力閱讀了全世界已知的所有文本,訓練形成了大模型。它特别像嬰兒大腦,可能有幾百億、上千億的參數,和人腦不同的是,嬰兒最多隻是遺傳了父母的外表和性格等,但大模型的大腦遺傳了知識,這隻是初始狀态,接下來會通過微調等各種方式,像小孩在成長過程中會有各種教育,整個大模型的演進更加拟人化。

這是整個人工智能的變化。

今天的AGI和之前有什麼本質變化?2022年12月份之前,整個人工智能還是一種鑒别式人工智能,做判斷題、專用系統和智能子產品,做一些特定任務。一方面人工智能的表現并不是那麼智能,常被别人诟病“你們提供的是人工智障”,以至于過去人工智能的能力天花闆較低。

第二,在很多場景裡,客戶的需求是千差萬别的,但人工智能的能力沒那麼強,很多公司和團隊用各種定制去滿足。人工智能企業并不像高科技公司,在過去十年裡,隻能做鑒别式AI是手工作坊的時代。但現在有了大模型,有更加強大的通用能力,人工智能開始進入工業化時代。

有了新的生成能力、湧現能力,用一個模型就能解決很多場景下的不同問題。今天這個時代,人工智能大模型就是發電機,在發動機沒有發明之前,中東國家并沒有那麼富裕,石油的價值沒那麼大。就像今天可以把資料變成燃料和能力,用這個能力賦能千行百業。

雲知聲為什麼能夠在短時間推出自研大模型?

我們在2012年成立,是國内最早開始把深度學習應用到語音能力的,以前都是在科幻片裡看到,2012年推出了基于深度學習的語音識别引擎,那時候把深度學習作為雲知聲的整個技術架構。

2016年看到AlphaGo,我們把醫療産品在醫院裡落地,幫助北京協和醫院的醫生,極大提高工作效率。在醫院這個場景裡,隻是效率工具是不夠的,人工智能真正的智能是認知智能,Transformer是2017年提出來的,認知智能的背後需要比較強大的算力。

有了這些鋪墊,無論從學術還是工程化方面,積累了很多經驗。這個經驗對于個人來講是你謀生的能力,但是對于公司來說是在市場上勝出的核心競争力。把ChatGPT架構看了之後,發現沒有一項是新的,都是一些已有的工程化組合,我們很快把這種能力結合,投入到大模型研發中。

我們在三天前,釋出了商業大模型,名字叫山海。把預訓練、指令微調、基于人回報的增強學習全部跑通,看到了期待已久的湧現能力。那時候團隊就在想是不是要給它起個名字,那段時間我在頻繁出差,覺得名字還挺好的。海是波瀾壯闊,有容乃大,展現出大模型的無限生成能力,山是高山仰止,我們知道什麼能說、什麼不能說,這恰恰是既要強調大模型的生成能力,又要強調大模型的安全合規問題。

有一個很有意思的現象,大家都在談大模型,國内對大模型的關注是在春節後,但大家都不談這個事,心裡都沒底。到今天為止,有一種觀點這件事情隻有技術還不能做,哪怕人都到位了,但訓練成本很大,是極其燒錢的。大模型不是科學革命、不是發明了新的算法,是把已有的算法組合在一起做大,大都是有代價的,當然還有很多工程在裡面。觀點是對的。

反過來講,如果認為未來10-20年大模型是很大的機會,BAT投不進去了,就放棄了,我認為還是有機會的。

雲知聲在過去的幾年裡,并不需要特别牛的科學家,我甚至認為這個事就不是科學家幹的事情,科學家沒有玩過那麼多算力,也不知道場景在哪裡,是以結果一定是不好的。有場景的廠商反而是最有可能成功的。

起山海這個名字,還有一個意思,所愛隔山海,山海皆可平。

山海之力是十項全能。生成能力是非常主觀的,真正在場景落地的時候,語言了解能力很重要,為什麼以前覺得是人工智障,因為缺乏了解和代碼能力。代碼能力的提升能夠有助提升大模型的推理能力,輸出結果一定要符合國内的法律法規甚至道德價值觀等。我們還采用GPT-4 插件的架構,幫助企業和客戶,從資料的優選、模型訓練、模型部署等一條龍服務。

為什麼大模型具備複雜的邏輯推理能力?我們今天做到了,但不知道為什麼,到底是500億參數還是1000億參數更好,卻不好說,可能1000億參數裡面神經元還沒有被激活。

另外還有醫療,一開始我們在做大模型,很多人以為雲知聲做的是垂直行業模型,并不是,我們是做行業應用。挑戰了一個最嚴肅的場景——醫療,通過預訓練階段,收集了很多醫學的文獻、專著、書籍,病案,積累了幾千萬真實标注的資料,這些資料可以轉化成我們的微調資料。

另外在2019年還獲得了北京市科技進步一等獎,獲獎項目就是大規模知識圖譜建構關鍵技術及應用,我們有國内最大規模之一的醫療知識圖譜,我們把知識圖譜分解成知識插件嵌入到大語言模型中,使得大模型變成醫療領域的專家。

MedQA是一個非常權威的醫療知識問答測試集,包括谷歌的Med-PaLM,ChatGPT和GPT-4都在這個測試集上公布了它們的評測結果,山海前不久的評測中做到了81分,大大超過了GPT-4的71分。通過領域增強以後,能夠把大模型變成某個領域的專家。還有一個數字可以做橫向對比,醫學院畢業生要通過臨床執業醫師考試目前已知的AI最高分數是456分,山海大概考了511分,這就是大模型通過領域增強以後獲得的超強能力。

想做大模型還是挺難的,門檻非常高,除了需要很多錢之外、優秀的算法工程師和算法之外,還需要很多能力,我們把它總結為山海之功。直覺來講,大模型本身就是大資料集,大模型是工程師的活兒,雲知聲為什麼能夠用幾個月的時間就能做出一個非常權威的客觀的評測資料,我們内部去評,不隻在醫療,在通用領域方面,雲知聲都是最好之一。

算力平台不是買多少卡來插就行了,雲知聲差不多有200P算力,利用叢集的效率達到業内最頂尖的水準,可以用相對比較少的卡,很快速地訓練出我們的模型。

我們目前GPU叢集的使用率能做到50%,大模型需要多卡,目前業内的水準大概是42%。大模型還要做到3D混合并行訓練。什麼是3D?就是模型的并行化、資料的并行化、流水線的并行化,要把任務分離到很多不同機器的不同卡裡分别計算,最後能快速得到響應的結果。另外在模型推理裡得到了很多優化,推理的速度提高了5倍,怎麼樣把訓練卡和推理卡分開,訓練卡是A800,推理卡是在一張單卡A6000上就可以實作快速推理。

另外資料很重要,資料規模、資料多樣性、資料高品質,我們現在能做到支援10T級别的快速去重,ChatGPT的訓練數去是45T,但是優選之後用了幾百G的資料來訓練。

有了這些能力之後,就能夠基于Atlas和UniDataOps的能力,可以把山海的能力和行業客戶更好地提供服務。

智慧物聯也是公司的一塊重要業務,我們有很多落地,過去用的效果确實不太好,希望有了山海之後,用大模型把已有的物聯網的産品全部做一遍。

醫療是我們看好的方向。以前的醫療方向,産品主要有兩個方面,一是不用手敲鍵盤,直接拿麥克風說話,極大提升了醫生的工作效率,把病曆輸入時間從3個小時縮短到了1個小時;二是有了病曆之後,還有一套系統,通過AI大腦稽核病曆,稽核病曆有沒有錯誤,現在有了AI大模型能力之後能夠做什麼呢?

對話過程中的所有對話都被記錄下來,而且會識别出裡面的關鍵資訊,作為資訊摘要。有了那些溝通之後的關鍵資訊,就可以一鍵指導生成病例。以前需要醫生一個字一個字的念病曆,現在可以根據關鍵資訊,就可以形成病曆。

山海的願景是通過人工智能打造互聯、直覺的世界,以前對人工智能的定義是讓機器服從人,今天希望機器更加拟人。人和物的溝通交流會變的更加直覺,新的能力會帶來新的産品、新的商業模式,非常願意和在座各位共同迎接大模型的新時代。

繼續閱讀