天天看點

怎麼把AI變成生産力?釘釘:這題我會

「xx,今天開會你來做一下會議記錄。」

聽到這句話,瞬間精神了有沒有?

對于每一個打勞工來說,做會議記錄幾乎都是「加班」一樣的存在。這意味着你在整個會議中都要全神貫注,但即使這樣也難以保證全記下來,可能下班之後還要聽錄音進行補充,畢竟這場會議的可回溯性高低幾乎都取決于你的記錄品質。 馬上就 2022 了,為什麼我們還在這種簡單的事情上耽誤時間?讓 AI 幫忙記錄不香嗎? 答案當然是「香」,尤其是将 AI 嵌入常用的辦公平台之後。

想象一下,在一場線上會議結束之後,你可以立即收到一張卡片形式的資訊。

打開這張卡片,你驚喜地發現整場會議已經被全部錄制了下來,視訊旁邊就是完整的文字記錄。視訊播到哪兒,哪兒的文字就會高亮顯示。點選任意文字,視訊和音頻也會跳到對應的位置,音、畫、字三方同步,連進度條都不用自己拖動,是不是很友善? 

怎麼把AI變成生産力?釘釘:這題我會

這就是釘釘在今年的「2021 未來組織大會」上正式釋出的新功能——釘釘閃記,它是釘釘會議協作新産品「釘閃會」的一部分。

釘釘閃記有很多非常實用的小功能,比如自動翻譯、自動生成會議關鍵詞、文字檢索、篩選發言人、上傳視訊轉文字加字幕等。

對話的自動翻譯相信很多人都在釘釘聊天框中體驗過。這個功能給人的第一感覺就是:翻得很快啊。字剛打進輸入框,翻譯結果就出來了,而且還可以設定「接收消息實時翻譯」,連翻譯按鈕都不需要自己點,難怪很多人将其納入釘釘的「真香」系列。有了前面的成功經驗,釘釘這次把自動翻譯添加到了會議場景,支援 11 種外語,不知道可以拯救多少外語聽力一般但還要經常跟國際客戶開會的同學。

自動生成會議關鍵詞、文字檢索和篩選發言人在節省時間方面非常有用,尤其是在會議時間比較長的時候。畢竟工作那麼忙,誰也沒時間把每個會議記錄都通讀一遍。釘釘總裁葉軍還表示,閃記下一步還将嘗試智能提取段落大意、自動提取會議行動點等功能,進一步幫大家節省時間。

将上傳的視訊轉成文字并加上字幕是一個讓人有點意外的小功能,因為它的作用可不僅局限于開會,平時做個内部教育訓練視訊、産品 demo 都能用得到,你甚至能靠它當個 up 主,這真是妥妥的新生産力工具了。

值得一提的是,釘釘副總裁、協同平台業務負責人傅徐軍在釋出會上透露,從立項到開發再到上線,釘釘閃記隻用了大概兩個月的時間,而且後續還将擴充到線下場景。

為什麼一個産品的上線可以如此之快?傅徐軍解釋說,「閃記是釘釘和阿裡巴巴達摩院合作開發的新産品,我們看到的多國語言翻譯以及語音轉文字能力都是來源于達摩院強大的技術支援。」

以閃記用到的語音識别為例。我們剛才提到,釘釘閃記的語音轉文字結果是「立即」可出的,這差別于一些需要等待的語音轉寫産品。後者利用的往往是離線系統,在準确率方面比較有優勢,但缺點也很明顯,就是延遲較高。是以,近年來,延遲較低的線上系統受到越來越多的關注,但準确率始終不及離線系統。為了綜合二者的優勢,在降低延遲的同時提高準确率,阿裡達摩院與釘釘技術團隊采用了新一代流式和離線端到端一體化模型方案(UNIVERSAL ASR),它可以同時支援閃記的實時轉寫和錄制音頻轉寫,識别率媲美純離線端到端模型,但延遲大大降低。

怎麼把AI變成生産力?釘釘:這題我會

UNIVERSAL ASR 架構概覽。圖源:

https://arxiv.org/pdf/2010.14099.pdf

此外,閃記還首次上線了新一代端到端熱詞定制技術,在端到端模型中加入了為額外文本進行模組化的 Contextual LSTM 子產品,使得模型具備了對特定文本進行糾偏增強的能力。與傳統熱詞技術相比,該技術的熱詞丢失率下降了 60%,顯著提升了定制場景的熱詞識别效果,且可設定熱詞數達到上千個。

再比如說聲紋識别,技術人員針對會議場景的多角色分離任務,提出了多項核心算法創新技術。

首先,他們将隻基于頻域資訊的傳統聲紋模型擴充到了頻域和時空資訊的三維說話人識别模型。通過有效模組化空間信号資訊 + 聲紋神經網絡,系統在多人會議中的性能大幅度提升,尤其是對說話人的起始時間的追蹤、定位等能力。

怎麼把AI變成生産力?釘釘:這題我會

圖源:

https://arxiv.org/pdf/2107.09321.pdf

其次,針對長期困擾說話人識别研究者的短時文本無關任務,研究人員也做出了顯著的優化。他們提出了一種基于 contrastive loss 的孿生網絡結構 Phonetically-aware Coupled Network (PacNet),有效地同時模組化聲學資訊和内容資訊,可以有效減少短語音時文本内容對聲紋識别帶來的幹擾,進而大幅度提升一場會議中短片段識别的準确率。

第三,針對強噪環境(如多人同時說話、電腦音頻背景噪聲等)下的說話人識别技術,技術人員提出了一種新的算法——CAM(針對聲紋識别的 Context-Aware Masking)。該算法受到照相機聚焦技術的啟發,可以在嘈雜的環境中「虛化」過濾掉背景噪聲,突出需要識别的目标說話人的聲音,進而在強噪環境下大幅度提升了識别的準确率。

最後,在角色區分的關鍵技術子產品中,技術人員實作了基于 Global-Local 資訊的算法思路,将傳統聚類算法與端到端 diarization 有效結合,進而更準确地識别出會議中講話人數、說話人變更點以及重疊語音。

在企業人工智能服務方向,釘釘其實是一個特别的樣闆。

首先,釘釘内并沒有特别執着于精深的前沿 AI 技術,幾乎很難找到 AI 領域的最新突破,反而大多數是業界已經相對成熟的技術。

但為什麼要從 AI 角度看釘釘?因為這個平台上确實有很多 AI 技術的落地,例如 AI 翻譯、語音速記、實時字幕、對話機器人、多模态等等,在語音 AI、視覺 AI、決策智能以及智能計算很多方面都有涉及。

這與釘釘的定位有關,它是使用者每天都在使用的端,不允許不穩定因素,但它又有 AI 發展所欠缺的落地場景。

可以說,釘釘真正擅長的是為這些成熟的技術找到應用方向,做到 AI 技術的産品化,把 AI 變成每個普通人觸手可及的生産力工具。

例如,在教育場景中,釘釘釋出了「教師版釘釘」,上面有數學智能批改、國文朗讀練習、英語口語評測等功能,用簡單的 AI 幫老師節省了大量時間。

怎麼把AI變成生産力?釘釘:這題我會
https://edu.sina.com.cn/l/2021-01-14/doc-ikftssan6101246.shtml

再比如,在工廠裡,釘釘内的群聊機器人與制造業的生産系統內建,将生産工廠中的房間出現的問題及時推送到群、人的聊天裡。如果故障工單在一定時間内沒有解決,釘釘機器人會将資訊發送給更高一層負責人,這樣層層推送,責任到人,大大提升了工廠的生産效率與解決問題的速率,讓員工少跑腿。

透過釘釘這個界面我們看到:AI,即使是現階段的 AI(弱人工智能),在提升人類生産力方面也蘊涵着巨大的潛力,隻要你找對方向。

為什麼釘釘如此看重用 AI 提升生産力?在釘釘總裁葉軍看來,釘釘這類新生産力工具是企業數字化轉型的有力支撐,可以幫助企業走向「兩個數字化」——組織數字化和業務數字化,并通過兩個數字化的互相融合和促進,實作組織内人财物事、産供銷研、組織上下遊生态産業鍊等場景環節的全鍊路數字化。

其中,組織數字化首先關注的是員工的數字化能力,讓每一個員工擁有一套稱手的新生産力工具,這也是釘閃會等協同産品的最終使命。

而阿裡達摩院提供的 AI 技術能力為這一願景提供了有力保障。

怎麼把AI變成生産力?釘釘:這題我會

除了開放自身能力之外,釘釘也承擔了阿裡巴巴科技能力的開放視窗這一重要角色。通過釘釘這一使用者界面,使用者可以按需調用阿裡雲、達摩院的各類技術元件、雲産品和資源,其中就包括各項 AI 能力。

可以預見的是,在不斷疊代的 AI 能力的支援下,釘釘将解鎖越來越多的場景,讓 AI 走進各行各業,走入田間地頭,真正成為新生産力工具,而不是空中樓閣。這是幸事。

繼續閱讀