上周國内主流大模型應用研究公司陸續釋出了它們的大模型APP,本文将對目前熱度較高的幾款APP進行功能測評,一起來看看各家的表現吧。
測評對象:訊飛星火(科大訊飛)、文心一言(百度)、豆包(位元組)
【初始問題】請對大模型APP文心一言、訊飛星火和豆包進行功能對比分析,并進行推薦。
訊飛星火
首輪溝通失敗後,讓它換個角色嘗試,還是失敗[攤手]
文心一言
續上
續上
續上
每款産品都有優缺點,也算是面面俱到的同時又有點不同的側重了,不過豆包不是位元組研發的麼,回答準确性待驗證[思考]
豆包
這個寫的确實比較通俗易懂,便于抓住重點,但事實如何且待接下來的問題驗證!
對比總結:訊飛的回答雖然沒有問題,但對自己的定位略微死闆,這樣怎麼還能和使用者友好的玩cosplay呢;文心一言面面俱到(羅裡吧嗦),但内容一多,上下文就容易出現自相沖突,不合邏輯的地方,對使用者來說就有點困擾了(要檢查一堆内容準确性[暈]);豆包回答更為簡潔明了,如果準确性也沒太大問題就OK了。
【顧問型問題】幫助我識别汽車行業中的新興趨勢和發展,并建議如何調整我的技能和知識以保持領先地位。
訊飛星火
主流趨勢:電動化、網聯化、自動駕駛和新能源基礎設施
文心一言
續上
除了訊飛的電動智能網聯,還補充了輕量化和循環經濟設計
豆包
範圍最少,但重點都有,文下列了出處,這一點做的更細緻[送心]
對比總結:三個模型的回答都還OK,基本都是按點分類進行文本的結構化呈現,其中訊飛的總結話術更符合自然語言的交流習慣,文心一言的列舉最為全面,内容充分但有時需再次歸納總結,豆包回答最為聚焦,且有文章出處,便于說明引用,但建議内容有些重複,不夠精煉。
【算術類問題】:小明在靜水中劃船的速度為10千米/時,今往返于某條河,逆水用了9小時,順水用了6小時,求該河的水流速度。(國中數學)
訊飛星火
看着像模像樣,可惜方程解錯
文心一言
回答正确!
豆包
方程都沒列對,題意還未識别準确
對比總結:文心一言最優,訊飛次之,豆包次次之
【邏輯推理型】測算每天進入虹橋火車站的電動車有多少?
訊飛星火
[微笑]
文心一言
[無辜笑]
豆包
[皺眉]
對比總結:大家目前都不具備複雜邏輯推理能力,主要還是基于現有的公開資訊,進行拼接重組或提煉總結。隻是訊飛的建議更像是聽懂了我想幹嘛。。
以上是對三款大模型APP在顧問式問答、基礎計算和邏輯推理三個方面的對比總結。callback豆包對初始問題的回答:“文心一言的回答通常比較全面,能夠提供多種可能性和解釋。”、“訊飛星火的回答通常比較簡潔明了,适合快速擷取資訊”、“豆包的回答通常比較有趣,能夠與使用者進行良好的互動”,本輪測試下來感覺文心确實更全面但不一定準,可做啟發與參考;訊飛回複比較簡潔,且更自然,更有對話感覺;豆包回複最為精煉簡單,但沒有感覺到有趣。不過本次測試問題有限,結果可能有失偏頗,請大家按需采納~
接下來會持續對其進行文本加工、文案生成及圖形繪畫等功能的測評對比,歡迎感興趣的小夥伴持續關注[飛吻]