天天看點

大模型APP功能測評一(訊飛星火、文心一言、豆包)

作者:車潮卷卷

上周國内主流大模型應用研究公司陸續釋出了它們的大模型APP,本文将對目前熱度較高的幾款APP進行功能測評,一起來看看各家的表現吧。

測評對象:訊飛星火(科大訊飛)、文心一言(百度)、豆包(位元組)

【初始問題】請對大模型APP文心一言、訊飛星火和豆包進行功能對比分析,并進行推薦。

訊飛星火

大模型APP功能測評一(訊飛星火、文心一言、豆包)

首輪溝通失敗後,讓它換個角色嘗試,還是失敗[攤手]

大模型APP功能測評一(訊飛星火、文心一言、豆包)

文心一言

大模型APP功能測評一(訊飛星火、文心一言、豆包)

續上

大模型APP功能測評一(訊飛星火、文心一言、豆包)

續上

大模型APP功能測評一(訊飛星火、文心一言、豆包)

續上

大模型APP功能測評一(訊飛星火、文心一言、豆包)

每款産品都有優缺點,也算是面面俱到的同時又有點不同的側重了,不過豆包不是位元組研發的麼,回答準确性待驗證[思考]

豆包

大模型APP功能測評一(訊飛星火、文心一言、豆包)

這個寫的确實比較通俗易懂,便于抓住重點,但事實如何且待接下來的問題驗證!

對比總結:訊飛的回答雖然沒有問題,但對自己的定位略微死闆,這樣怎麼還能和使用者友好的玩cosplay呢;文心一言面面俱到(羅裡吧嗦),但内容一多,上下文就容易出現自相沖突,不合邏輯的地方,對使用者來說就有點困擾了(要檢查一堆内容準确性[暈]);豆包回答更為簡潔明了,如果準确性也沒太大問題就OK了。

【顧問型問題】幫助我識别汽車行業中的新興趨勢和發展,并建議如何調整我的技能和知識以保持領先地位。

訊飛星火

大模型APP功能測評一(訊飛星火、文心一言、豆包)

主流趨勢:電動化、網聯化、自動駕駛和新能源基礎設施

文心一言

大模型APP功能測評一(訊飛星火、文心一言、豆包)

續上

大模型APP功能測評一(訊飛星火、文心一言、豆包)

除了訊飛的電動智能網聯,還補充了輕量化和循環經濟設計

豆包

大模型APP功能測評一(訊飛星火、文心一言、豆包)

範圍最少,但重點都有,文下列了出處,這一點做的更細緻[送心]

對比總結:三個模型的回答都還OK,基本都是按點分類進行文本的結構化呈現,其中訊飛的總結話術更符合自然語言的交流習慣,文心一言的列舉最為全面,内容充分但有時需再次歸納總結,豆包回答最為聚焦,且有文章出處,便于說明引用,但建議内容有些重複,不夠精煉。

【算術類問題】:小明在靜水中劃船的速度為10千米/時,今往返于某條河,逆水用了9小時,順水用了6小時,求該河的水流速度。(國中數學)

訊飛星火

大模型APP功能測評一(訊飛星火、文心一言、豆包)

看着像模像樣,可惜方程解錯

文心一言

大模型APP功能測評一(訊飛星火、文心一言、豆包)

回答正确!

豆包

大模型APP功能測評一(訊飛星火、文心一言、豆包)

方程都沒列對,題意還未識别準确

對比總結:文心一言最優,訊飛次之,豆包次次之

【邏輯推理型】測算每天進入虹橋火車站的電動車有多少?

訊飛星火

大模型APP功能測評一(訊飛星火、文心一言、豆包)

[微笑]

文心一言

大模型APP功能測評一(訊飛星火、文心一言、豆包)

​[無辜笑]

豆包

大模型APP功能測評一(訊飛星火、文心一言、豆包)

​[皺眉]

對比總結:大家目前都不具備複雜邏輯推理能力,主要還是基于現有的公開資訊,進行拼接重組或提煉總結。隻是訊飛的建議更像是聽懂了我想幹嘛。。

以上是對三款大模型APP在顧問式問答、基礎計算和邏輯推理三個方面的對比總結。callback豆包對初始問題的回答:“文心一言的回答通常比較全面,能夠提供多種可能性和解釋。”、“訊飛星火的回答通常比較簡潔明了,适合快速擷取資訊”、“豆包的回答通常比較有趣,能夠與使用者進行良好的互動”,本輪測試下來感覺文心确實更全面但不一定準,可做啟發與參考;訊飛回複比較簡潔,且更自然,更有對話感覺;豆包回複最為精煉簡單,但沒有感覺到有趣。不過本次測試問題有限,結果可能有失偏頗,請大家按需采納~

接下來會持續對其進行文本加工、文案生成及圖形繪畫等功能的測評對比,歡迎感興趣的小夥伴持續關注[飛吻]

繼續閱讀