天天看點

體驗報告來了!記者第一時間親測百度“文心一言”

《科創闆日報》3月16日訊(記者 黃心怡),今日百度召開文心一言新聞釋出會,宣布開啟邀請測試。《科創闆日報》記者第一時間拿到了文心一言的的内測碼,實際測試了文心一言的效果。整體而言,百度文心一言能夠基本完成釋出會上所示範的問題回答和圖檔生成。但在某些問題了解上仍有待進一步完善。

首先,《科創闆日報》提出了一個比較常見的問題:你和chatGPT的差別是什麼?

可以看到,文心一言的中文組織能力表現不錯,能夠語句通順地問答完整。

随後,我們又問了關于國内涉足預訓練大模型的公司有哪些?文心一言回答得也較為全面。

記者嘗試了一個需要涉及資訊搜尋的問題。

特斯拉在國内過去五個月、過去一年的銷量是多少?文心一言的答案是:

而記者直接通過百度搜尋獲得答案是:乘聯會釋出的統計資料顯示,2023年1月份,特斯拉中國銷量達66051輛,環比增長18%;月出口39208輛。

文心一言沒有能夠抓取到正确的資料來源,仍有待進一步優化。

在釋出會現場,百度重點展示了文心一言在五個場景下的綜合能力。根據其示範的demo,文心一言不僅具備了文學創作、商業文案創作、數理推算等大語言模型較常見的優勢和能力,還表現出了中文了解、多模态生成能力。

《科創闆日報》記者特地從這些方面進行了測試。

首先是文學創作,記者讓其仿造三體風格寫一篇800字的科幻小說。

文心一言的回答是:

之後,記者讓其編寫一首與小黃鴨有關的兒歌,文心一言在十幾秒時間内完成了。

對于打勞工來說,寫工作總結是一件令人頭疼的事。記者也為此提問了文心一言。

從答案來看,似乎是程式員的工作總結,寫得較為工整。

然後,記者試了試文心一言在商業文案創作方向的能力。

我們讓文心一言寫一段針對雙11促銷的童裝營銷文案,并設定了“用料健康、成本效益高”的關鍵詞。

顯然,文心一言了解了關鍵詞的含義,并且把“用料健康、成本效益高”融合在了文案之中。

記者繼續讓其生成針對AI醫療公司的中秋節海封包案。

從答案來看,文心一言能夠準确地了解問題的中文含義,隻是文采仍有待提高。

記者又讓它對一家大資料和商業智能公司起名。

文心一言給出的公司起名,隻能說非常地“望文生義”吧。

之後,記者讓文心一言寫一首“祝你生日快樂”的藏頭詩。

這次表現不俗,在10秒左右就完成了,并實作了押韻。

李彥宏認為,“藏頭詩”很考驗AI對中文和中國文化的了解,能比較清楚地展示了文心一言在中文上的優勢。“不過,相對應的,一言目前對英文語種、代碼場景的訓練還不夠多,表現還不夠好,接下來我們還要加緊訓練,不斷完善這些能力。”

接着,記者希望考一下文心一言的數理邏輯推算能力,在釋出會上,文心一言順利答對了雞兔同籠的經典題目。

《科創闆日報》從網絡上找了幾道小升初數學題目。

比如:雞和免放在一隻籠子裡,上面有 29 個頭,下面有 92 隻腳。問: 籠中有雞、兔各多少隻?

文心一言的答案是12隻雞,17隻兔,與标準答案一緻。

但對于其他數學題,文心一言則有失誤。

2分和5分的硬币共36 枚,共值 99分。問:兩種硬币各多少枚?

正确答案是2分27枚,5分9枚。但文心一言沒有算對。

某次數學競賽共20道題,評分标準為每做對一題得5分,每做錯或不做一題扣1分。小華參加了這次競賽,得了64分。問:小華做對幾道題?

正确答案應該是14題,而文心一言得出了16題。

李彥宏在釋出會上表示,文心一言已具備了一定的思維能力,能夠學會數學推演及邏輯推理這類相對複雜任務。但現階段準确率還不是100%,還需要給它更多的時間來學習和成長。

李彥宏還在現場示範了多模态生成方向的Demo,>比如為2023世界智能交通大會創作一張海報。以下為示範效果:

在實際測試中,文心一言似乎還不具備為大會生成海報的功能,隻是給出了一些設計建議。

不過,對于帶有關鍵詞的簡單圖檔,文心一言完成得還不錯。

生成的圖檔效果基本達标,并且速度極快,隻需十幾秒左右。

此前,有多名網際網路大廠員工對《科創闆日報》記者表示,已經開始用ChatGPT自動生成業務代碼和重構代碼。

于是,記者嘗試了一下文心一言能否順利寫代碼。

提問:我需要一段冒泡排序java代碼

提問:畫橢圓形的JS腳本

記者讓程式員朋友檢查了下,對方表示:粗略看上去沒有問題,感覺以後會對程式員會是不錯的輔助工具。

李彥宏表示,目前的文心一言版本,已經能夠生成文字、圖檔和語音。“生成視訊因為成本比較高,還沒有對所有使用者開放,未來我們會逐漸接入。但是熟悉百家号創作的朋友,應該都體驗過這個功能了,每天有幾萬篇文章通過這個能力轉成視訊内容在百度分發。”

李彥宏指出,多模态是生成式AI一個明确的發展趨勢。未來,随着百度多模态統一大模型的能力增強,文心一言的多模态生成能力,也會不斷提升。

從記者的體驗來看,文心一言已經能夠較為流暢、準确地回答提問,但在一些問答場景上仍待優化。

李彥宏則在釋出會上表示:整體而言,這類大語言模型還遠未到發展完善的階段,它們有時候會有很驚豔的表現,但不少場景下,細究起來還有明顯的bug,進步空間很大。未來這段時間它一定會飛速發展,日新月異。