天天看點

大模型應用競争轉寫賽道,比誰更能“聽懂”音視訊

作者:南方周末
大模型應用競争轉寫賽道,比誰更能“聽懂”音視訊

阿裡雲峰會上,阿裡雲智能集團CTO周靖人介紹通義聽悟。 (受訪者供圖/圖)

距離阿裡雲大模型“通義千問”問世不到兩個月時間,阿裡雲于2023年6月1日在廣州的阿裡雲峰會上釋出了通義家族新成員——通義聽悟。

這是一款由阿裡雲達摩院研發的AI語音助手,也是中國首個開放公測的大模型應用産品。目前,市面上多數大模型還沒有落地的應用,或是應用産品僅供邀請體驗。

據阿裡雲介紹,這款産品不僅“聽力好”,可以準确生成會議記錄、區分不同發言人,“悟性”也高,能給音視訊劃分章節并形成摘要、總結全文及每個發言人觀點、整理重點和待辦事項。使用者可以摘取關鍵資訊到頁面右側的空白筆記中。

競争轉寫的“AI”能力

阿裡雲智能集團首席技術官周靖人在峰會現場介紹通義聽悟背後融合了十多項AI功能,瞄準的是具有高知識附加值的音視訊内容場景,如開會、上課、面試、直播、看視訊、聽播客等。

聽悟最早亮相于2021年杭州雲栖大會,次年釋出了進階版。通義聽悟技術負責人鄢志傑向南方周末等媒體透露,通義聽悟前身就是阿裡内部所使用的語言記錄工具,現在的聽悟更像是“助手”,在提供幫助的同時還有可能産生建議或啟發。“通義聽悟的定位是人類的助手,不會替代人類的工作。”

“大家不知道的是,通義聽悟背後的一部分模型,完全可以在魔搭社群下載下傳,并不是封閉的。我們不會當做一個利器隻為自己所用。”鄢志傑說。魔搭社群是一個中文AI模型開源社群。

在音視訊轉寫賽道,通義聽悟直面的競争對手是科大訊飛。

就在5月6日,科大訊飛正式釋出訊飛星火認知大模型,并在訊飛聽見的基礎上更新“會寫”功能,可以根據音視訊内容由AI生成不同類型的文稿,如品宣文案、新聞稿件和工作總結等。

訊飛聽見的“會寫”功能現已開始收費,月權益包為49.8元,三個月權益包為139.8元,一年權益包為518元。

南方周末記者實測對比兩款軟體,将一段音視訊上傳後,均能做到完整轉寫會議内容、精準區分一段錄音内不同的發言人。

在AI能力方面,訊飛聽見轉文字僅上線兩大功能,一是提供全文摘要,二是提供語篇規整。其中語篇規整起到調整語序、提高閱讀流暢度的作用。

對比之下,通義聽悟的“AI”含量更豐富。在AI大模型的作用下,通義聽悟展現出對音視訊更強的了解力,全文概要的細節更多、章節速覽準确度較高以及能對同一發言人的所有發言内容進行總結概括。

“這個版本上我最喜歡的就是章節概覽——把内容劃分段落并概括主題,大大壓縮閱讀時間,改變知識類視訊的消費體驗。”通義聽悟技術負責人鄢志傑向包括南方周末在内的媒體記者介紹。

“沒有推出硬體産品的計劃”

有媒體記者在現場使用通義聽悟實時記錄會議内容,一位媒體人向南方周末記者表示,實時轉寫的準确度不及她常用的另一款轉寫軟體。而且,在網頁端實時轉錄時一旦退出頁面,錄音就會停止。

南方周末記者測試發現,通義聽悟轉錄音視訊的識别準确度整體較高,但仍需人工校正,在嘈雜環境下轉寫表現有待提升。區分發言人的精準度超出預期,但由于發言人區分過細,破壞了發言人段落的完整度。

大模型應用競争轉寫賽道,比誰更能“聽懂”音視訊

南方周末記者試用通義聽悟轉寫峰會現場講話。 (南方周末記者 周小鈴/圖)

大模型應用競争轉寫賽道,比誰更能“聽懂”音視訊

同一份檔案上傳至訊飛聽見産生的全文摘要。 (南方周末記者 周小鈴/圖)

對于通義大模型首款應用為何選擇音視訊賽道,阿裡雲智能首席技術官周靖人表示,并無特殊原因,通義聽悟不是唯一的産品,他們也在嘗試探索解決各行各業的需求,未來會陸續看到其他産品。通義聽悟還會陸續推出增強版,并做出商業化安排,目前在公測期間可以領取免費轉寫時長。

智能化的錄音筆是科大訊飛等公司的拳頭産品,但阿裡雲暫時不做硬體。

“目前暫時沒有推出通義聽悟硬體産品的計劃。”鄢志傑告訴南方周末記者,對使用者而言,手機終端已經夠用。目前,通義聽悟已被內建在釘釘“釘閃記”中,未來還會內建到誇克APP和阿裡雲盤。除了個人版外,後續還會釋出企業應用。

未免資料安全憂慮,周靖人介紹,通義千問自身的大模型訓練不依賴于使用者資料。

阿裡雲方面介紹,通義聽悟還即将上線一鍵提取PPT、針對多個音視訊内容向AI提問、概括特定段落、Chrome插件雙語懸浮字幕條等功能。

南方周末記者 周小鈴