天天看點

科大訊飛星火大模型評測:從職場到日常生活,樣樣精通

作者:大力财經

文 | 大力财經

今年最熱門的話題當屬OpenAI釋出ChatGPT 3.5版本,全球使用者對此紛紛追捧。在國内領域,百度、阿裡巴巴、位元組跳動、360、騰訊和科大訊飛等廠商紛紛推出大型模型,加入“百模大戰”的競賽。

大模型在自然語言處理領域可以顯著提高文本分類、問答系統和機器翻譯等任務的性能。然而,訓練和部署大型模型需要大量計算資源和時間,是以對其性能和可靠性的評估顯得尤為重要。

作為國内最有前途的大語言模型産品之一,科大訊飛星火大模型引起了大力财經的注意。本文将對這款大模型進行評測,為相關研究人員和從業人員提供參考。

從使用者體驗來看,科大訊飛星火大模型是筆者目前使用過的最好的國産AI語言模型之一。其表現令人驚豔且讓人驚訝。

首先,星火大模型的詞彙量達到了驚人的億萬級别,使其能夠處理各種複雜的語言場景,給出令人滿意的回答。而且,它的回答不僅僅是簡單的關鍵詞提取,而是完整流暢的句子輸出,頗具“真人感”,讓人難以相信這些内容是由一個AI模型生成的。

其次,星火大模型的能力非常強大。它不僅能夠進行基礎任務如文本分類、情感分析、問答系統等,還能進行進階任務如文本生成、翻譯和摘要。在文本生成方面,它可以根據使用者輸入的主題或關鍵詞生成符合要求的文章或段落。在翻譯方面,訊飛星火APP支援9種語言文本、語音和圖檔翻譯,完全可以滿足使用者的日常需求。在摘要方面,它能夠自動對一篇文章進行關鍵内容提取,幫助使用者快速擷取文章的核心内容。

總之,如果你需要一款強大的AI助手,不妨試試科大訊飛星火大模型。相信它一定不會令你失望。

是不是在擔心,自己沒法用好這個AI小助手?

很簡單!星火大模型的工程師們已經為你寫好了各種提示詞、預設了各種使用場景。隻需要發出指令,你想要的回答便會如期湧現~

訊飛星火認知大模型指令集 https://xinghuo.xfyun.cn/instruction

趕緊用起來!我們在評測大型語言模型時,會考慮以下幾個次元:

1.流暢度:生成文本時的流暢度,是否能夠快速地響應輸入并輸出文本。

2.可懂度:輸出的文本是否易于了解,是否符合語言習慣,是否存在文法錯誤等。

3.語感:輸出的文本是否具有語感,即是否能夠表達出合理的情感色彩和語氣。

4.情感表現力:輸出文本時是否能夠準确地表達出輸入文本所包含的情感。

5.韻律控制:在輸出文本時是否能夠控制韻律和節奏,即是否具有音樂感的文本。

6.場景适用性:是否适用于特定的應用場景,如對話生成、文本分類、問答等。

7.知識準确性:在輸出文本時是否具有準确的知識,能夠避免出現錯誤的資訊。

8.多語言支援:是否支援多種語言的輸入和輸出,以及在不同語言上的表現如何。

  1. 産品布局、内容管理和使用者引導:

頁面的布局分為了沉浸式和純淨版本。

進入之後的歡迎詞,很有親和力。

您好,我是訊飛星火認知大模型

能夠學習和了解人類的語言,進行多輪對話

回答問題,高效便捷地幫助人們擷取資訊、知識和靈感

科大訊飛星火大模型評測:從職場到日常生活,樣樣精通

百度文心一言的歡迎詞,文字較多,人們沒有那麼多的專注力去閱讀。

科大訊飛星火大模型評測:從職場到日常生活,樣樣精通

2.星火大模型給了六個“推薦助手”提示詞,在右上角可以進行點換一批,使用者體驗方面較為人性化,可以持續地點選換一批,一直到自己想要的功能。

科大訊飛星火大模型評測:從職場到日常生活,樣樣精通
科大訊飛星火大模型評測:從職場到日常生活,樣樣精通
科大訊飛星火大模型評測:從職場到日常生活,樣樣精通
科大訊飛星火大模型評測:從職場到日常生活,樣樣精通

3.從布局和内容管理上與ChatGPT類似,但在使用者引導上明顯勝過一籌,更适合中國剛剛接觸GPT産品的普通使用者,豐富的業務場景模闆讓新手更易上手。

星火大模型的問答快速、流暢,且準确。

科大訊飛星火大模型評測:從職場到日常生活,樣樣精通

行文流水,頗有才情,展現了孩童的歡悅,又不乏文化浸潤,應該是一篇高分小作文。作為國内的内容服務商,速度是即問即答,沒有ChatGPT常見的卡頓。

4.是否具備一定的常識?提問了魯迅和周樹人的問題,回答正确。

科大訊飛星火大模型評測:從職場到日常生活,樣樣精通

這個問題往往是作為差別GPT3.5和4.0的标準測試案例。恭喜訊飛星火,可以說,它在一定程度上擁有了超越3.5的水準。

5.在邏輯和推理方面,提問了一個樹上還有幾隻鳥的問題:

科大訊飛星火大模型評測:從職場到日常生活,樣樣精通

對比chatGPT4.0測了幾個類似的話題,答案都基本正确一緻,水準不相上下。

6.數學應用題

科大訊飛星火大模型評測:從職場到日常生活,樣樣精通

尚有欠缺,犯了和chatGPT3.5一樣的錯誤,但chatGPT4.0給出了正确的答案。

科大訊飛星火大模型評測:從職場到日常生活,樣樣精通

7.程式設計能力,請用C語言寫程式設計,

科大訊飛星火大模型評測:從職場到日常生活,樣樣精通

可以說,科大訊飛星火大模型在程式設計方面和ChatGPT一樣出色,會成為程式員的好幫手。

8.語言的泛化能力,比如對古代漢語的了解和表達。

科大訊飛星火大模型評測:從職場到日常生活,樣樣精通

給訊飛星火輸入一段古語,它會用現代語言解釋,輸入“繼續”會給你繼解答,如果不滿意,還可以點選,“重新回答”,即可輸出一段新的解答。這一點很人性化,一直回答到你滿意為止。

科大訊飛星火大模型評測:從職場到日常生活,樣樣精通

道德經的經典句子:道可道,非常道;名可名,非常名。給進行各個角度的解答,從語言的局限,二進制對立,自然法則,無為而治,個人修養的角度進行了解釋,還可以限制多少字數的解答。繼續多輪對話,請用英文進行解釋一下。

科大訊飛星火大模型評測:從職場到日常生活,樣樣精通

星火大模型,在此對話中,秒輸出了英文的解答。

9. 寫短視訊的腳本文案。提示詞是:你現在是一個視訊創作者,寫一個短視訊的腳本文案,關鍵詞是如何看待馬斯克和比爾蓋茨訪華的,字數限制在1000字以内。

科大訊飛星火大模型評測:從職場到日常生活,樣樣精通
科大訊飛星火大模型評測:從職場到日常生活,樣樣精通

星火大模型很詳細的給了一個視訊的拍攝方案,從開場畫面的旁白,到畫面切換,馬斯克的通路上海工廠參觀和員工對話,這些細節星火大模型都會自動分析,不用額外輸入資訊。還有比爾蓋茨的清華大學演講,這個是三年前的日程安排,星火大模型都是知道的。它還展示了高鐵、火箭等中國高速發展的代表性元素。可以說,星火大模型的知識儲備豐富,寫腳本文案很靠譜。

  1. 語言模型的參數規模和成長性。在問到星火大模型什麼時候超過ChatGPT?這個答案算是滿意,誰也不得罪。
科大訊飛星火大模型評測:從職場到日常生活,樣樣精通

據官宣,科大訊飛的大模型使用了超過1700億個參數,這些參數來源于數十億的語言資料集。這個數量級的資料量可以讓模型更好地學習語言規律和模式,進而提高其了解和生成語言的能力。與之相比,ChatGPT-3.5模型擁有1.5萬億個參數,但是覆寫了全球主要語言,漢語不到其中10%的資料量,我們有理由相信,在這個資料基礎上,星火大模型比OpenAI“更懂中文”。

在科大訊飛24周年慶上,科大訊飛董事長劉慶峰表示,訊飛不僅要緻敬和追趕OpenAI,更要在源頭上做自主創新,目前已在類腦智能、神經網絡大模型、博弈智能等方面探索通用人工智能的更多潛在路徑和前沿交叉研究機會。

咱們也試試讓星火參與PPT的制作。

提示詞是:你現在是一個營銷總監,要對公司的APP進行推廣,請寫一份PPT大綱。

科大訊飛星火大模型評測:從職場到日常生活,樣樣精通
科大訊飛星火大模型評測:從職場到日常生活,樣樣精通

星火大模型完整地輸出了一份營銷總監的PPT大綱。按照這份大綱,對應到具體公司具體産品,相信可以很快做出一份執行方案。

  1. 周末在家裡做飯,不知道怎麼做菜,可以讓星火大模型來進行指導。比如問一個紅燒肉的做法。
科大訊飛星火大模型評測:從職場到日常生活,樣樣精通

雖然“适量”讓人些許無措,但用量多少在做菜的過程中見仁見智,好在星火大模型提供了烹饪所需的食材和詳細步驟。在操作層面,按照這個步驟指導,便可以輕松地完成一道菜。

  1. 再寫一份減肥瘦身計劃吧!

提示詞是:你現在是我的健身教練,我要瘦身10斤,請給我制定一份減肥計劃。

科大訊飛星火大模型評測:從職場到日常生活,樣樣精通

星火大模型化身為我的健身教練,給我制定了12周的減肥計劃,寫出了具體可執行的運動項目和運動時長。每一周的安排都很詳細,很豐富,細化到了各類運動的時長和動作次數,感覺靠譜!

  1. 再寫一個嘉許别人的話,比如孩子考試的成績這次很好,怎麼表揚一下孩子。
科大訊飛星火大模型評測:從職場到日常生活,樣樣精通

在孩子成績考得很好的情況下,給了我5條嘉許的方式方法。

科大訊飛星火大模型評測:從職場到日常生活,樣樣精通

在孩子成績考砸了的情況下,關于怎麼嘉許和激勵孩子,星火大模型給了5條的比較積極的鼓勵方法,包括怎麼和孩子進行對話、對話的内容範疇。可以說是很具體,很有幫助,很有啟發。

15.與國内其他中文大語言模型的橫向比較

從真格基金、SuperCLUE的兩個測試集來看,訊飛星火在兩種評測集合上均在國内第一梯隊。附圖是真格基金和 SuperCLUE的測試資料。

科大訊飛星火大模型評測:從職場到日常生活,樣樣精通
科大訊飛星火大模型評測:從職場到日常生活,樣樣精通

總結:

作為一個ChatGPT的深度沉迷使用者,盼望賬戶稽核已久,好不容易通過了,必須是一頓操作猛如虎,連續幾個小時,幾個主流模型對照着玩了一遍。

首先,大力财經認為,科大訊飛星火大模型之是以可能成為國内最有可能超過ChatGPT中文效果的天選之子,一方面是因為中科大在理工科方面的強大人才基礎和務實精神,另一方面是因為訊飛在中文自然語言處理上的長期耕耘。其次,大模型本身已經不是什麼秘密,訊飛星火在中文賽道上憑借其實力和底蘊,一定能夠在細節上取得勝利。目前,國内的系列對比測試也明顯預示了這一趨勢。

評測結果表明,科大訊飛星火大模型在流暢度、可懂度和語感方面均表現出色。相較于以往的模型,科大訊飛星火大模型在這些方面有了顯著提升。

總的來說,科大訊飛星火大模型是一款非常出色的AI語言模型。它的表現讓我驚豔,也讓我對AI技術在語言領域的應用充滿了信心。

繼續閱讀