天天看點

重新認識AI落地,從小小詞典筆看技術從0到1的工程實踐

重新認識AI落地,從小小詞典筆看技術從0到1的工程實踐

距離有道詞典筆 2 代釋出的 1 年 3 個月之後,網易有道又推出了一款全新的有道詞典 3,差別在于,将查詞體驗從掃描的互動方式直接簡化到點一下就一秒鐘完成查詞。

網易有道産品負責人吳迎晖拿着全新的詞典筆在現場做示範,無論是當天刊發的中國日報英文版、紙質書籍,還是護手霜、藥盒,都可以快速點查陌生單詞。“‘快速點查’是讓你上瘾的一個功能。”他說。

當天釋出會的産品體驗區,這款詞典筆很快引起了參會者的注意,人群熙熙攘攘地聚在體驗區周圍,迫不及待想要一睹詞典筆究竟是什麼樣。

重新認識AI落地,從小小詞典筆看技術從0到1的工程實踐

當我拿起詞典筆想要找單詞點讀時,下意識直接将筆頭指向單詞的偏中間位置,很多未使用過有道詞典筆的參會者幾乎都犯了同樣的操作錯誤,導緻識别出來的單詞大部分是不全的。

後來這種操作被現場從業人員指正,并被告知需要将筆頭垂直放在所要識别單詞的首個字母前面,才可以順利完成點查。屢試體驗碰壁,在掌握合适方法之後,我很快産生了上瘾查詞的感覺。

重新認識AI落地,從小小詞典筆看技術從0到1的工程實踐

在英語學習場景當中,輔助查詞的産品就有電子詞典、點讀筆、點讀機等。與這些傳統産品不同的是,有道詞典筆更依賴于人工智能,用技術解決場景需求。隻不過,關于這款小小詞典筆背後的技術與工程實踐很少認真被讨論。

作為一家技術驅動産品的教育科技公司,借助有道詞典等産品的 8 億 + 使用者,有道詞典筆可以獲得大規模文本、OCR 圖像和語言的真實資料。自詞典筆自 2017 年推出開始,與之相應的工程也在不斷更新與疊代。

小小詞典筆為何讓人“上瘾”?機器之心試圖通過采訪,了解有道詞典筆背後從 0 到 1 的工程實踐。

01 一件冒險的事情

“‘超快點查’是吳迎晖的個人主意。”網易有道 CEO 周楓說。“他想到這個主意的時候,整個團隊都很興奮。”

超快點查是有道詞典筆 3 的一大亮點,這将查詞體驗從掃描的互動方式直接簡化到點一下就完成查詞。

吳迎晖表示這個創新功能來自于對使用者的洞察。實際上,從有道詞典筆 1 代推出至今,産品團隊幾乎每天都能收到各種各樣使用者的回報,這些回報都指向一個核心問題,究竟如何更有效率。

他的點子立即點撥了團隊的所有人,于是可視化互動點讀也出來了。有道詞典筆 3 的互動點讀功能面向低年齡段兒童,将日常繪本實作動畫效果,繪本還設有互動答題,可實作一句一跟讀,AI 打分。尤其對于有孩子的使用者而言,既要買詞典,又要給孩子買點讀産品,是以有道想做一款覆寫所有點讀場景的智能化産品,用速度換取效率,給使用者提供價值。

重新認識AI落地,從小小詞典筆看技術從0到1的工程實踐

功能非常吸引人,但如何就需求和場景改設計、驗證,挑戰很大。“這個挺冒險的,萬一不成功,坑的是整個團隊。”有道詞典筆的解決辦法是加入超感光學系統,用視覺辦法解決點讀。

關于超感光學系統,有道官方的解釋是:它相容了 OCR(光學字元識别)與 OID(光學辨識碼)兩大 AI 技術的自動判斷與識别,可同時識别紅外光與可見光。

超感光學系統有非常大的廣角,使其能夠識别文字的區域更大,這構成了 “超快點查” 的基礎條件。

“雖然這個功能非常實用且吸引人,但對算法挑戰非常大。”網易有道首席科學家段亦濤說。廣角鏡頭成像會産生畸變,另外,超感光學系統筆頭也會導緻光照不均。兩者都會造成識别困難。

“在此條件下做 AI 模型是很難的事,業界沒有現成的參考方案。”

實際上,無論是點查還是可視化點讀,所采用的 OCR、OID 技術并不稀奇,難點在于,需要用算法挑戰不可控環境下的識别;在有限的硬體條件下,內建不同産品和子產品組合。

02 一年零三個月的改變:從模型到架構

為了解決畸變、光照不均等問題,有道開發了新的方案與模型,優化從圖像采集、檢測及識别的全過程。

直覺而言,筆頭的廣角鏡頭會在短時間内采集圖像,而圖像是畸變的,在識别之前需要将畸變圖像轉換成無畸變圖像。

為此,有道預設了理想條件圖像到實際采集圖像的變換關系,包括廣角鏡頭的徑向畸變和傾斜角度的投影畸變。

在點查功能觸發後,有道使用預設的變化參數,修正圖像的畸變;然後使用門檻值化圖像技術對陰影進行補償。

重新認識AI落地,從小小詞典筆看技術從0到1的工程實踐
重新認識AI落地,從小小詞典筆看技術從0到1的工程實踐

所采集圖像經去畸變、去陰影後,再進行圖像增強,得到完整且可識别的圖像。随後 OCR 負責 “看懂” 圖像識别文字,TTS 負責詞和句子的讀音。整個過程在擡筆間就能完成,實作“超快點查”。

使用者可以用詞典筆在不同的場景識别不同的文字,比如化妝品的說明書、醫藥物品曲面等等。詞典筆二代推出後,有道意識到使用者對密集、彎曲、背景幹擾等掃描場景下對模型準确率有更高的期待,是以,部署了更為精細的像素級别檢測模型。

重新認識AI落地,從小小詞典筆看技術從0到1的工程實踐

有道将圖像上的每個像素位置進行前景文字和背景的分類,使用局部特征回歸行高等位置資訊,将所掃描的中心文字連接配接并組合成行,切分成用于識别的文本行。新的檢測網絡模型可将密集、彎曲的文字從各類複雜背景中檢測出來。

在 “檢測與識别” 的架構上,有道還增加了糾正子產品,用于将特殊字型、形近字、背景幹擾造成的誤識别進行糾正。

重新認識AI落地,從小小詞典筆看技術從0到1的工程實踐

基于有道海量的語言資料積累,有道針對詞典筆學習場景建構了 N-gram 語言模型。

在訓練階段,有道使用語料庫及對應圖像資料同時訓練識别模型和語言模型;在推理階段,識别模型的解碼能力易受字型和背景幹擾,輸出 “錯誤” 的識别結果。

重新認識AI落地,從小小詞典筆看技術從0到1的工程實踐

例如圖中所示的 “bredkfast”,原是錯誤拼寫。但在語言模型的加持下,“錯誤” 的預測機率将會被抑制,由語言模型輸出的轉移機率作用在解碼階段,将更加符合語言規範的結果 “breakfast” 輸出。

03 離線側端的底層工程

相較于詞典筆 2 代,詞典筆 3 代在不聯網的情況下,翻譯引擎速度提升了 20%,平均的識别準确率達到了 98.3%,最高的準确率能達到 99%。

這些資料的展現,都要歸功于詞典筆内置的離線 OCR 和翻譯模型。詞典筆中的離線模型都是從線上模型演化而來,為了保證使用者體驗效果,都需要在端上進行推斷。

點讀筆的運作流程是先要掃描文字,再進行翻譯、查詞,離線模型當中就包含視覺模型和翻譯模型。段亦濤表示,這些模型跟詞典筆 2 代相比都有了更新。

筆頭廣角鏡頭的設計,給圖像識别帶來視覺畸變上的麻煩,是以,在視覺模型方面,有道做了檢測和識别的模型的更新,并将 NLP 也融合到視覺模型中,可以幫助識别糾錯。

圖像識别後是翻譯環節。翻譯模型方面,有道做了語言的适配和優化,讓翻譯更加智能。由于翻譯模型的輸入是視覺識别模型的輸出,不可避免會出現類似标點符号、形近字等錯誤。為此,在識别模型本身具備一定糾錯能力的情況下,有道還為翻譯模型做了一些容錯的處理。

這些針對離線模型所做的優化,對詞典筆底層的算力及記憶體提出了挑戰。為了保證在給定算力的情況下實時運作,有道在模型上做了大量的優化。這些方法跟機器之心了解到的,針對詞典筆 2 代離線模型的做法大緻相同,将模型壓縮滲透在訓練、預測各個階段。

有道還采用了模型裁剪、參數共享、知識蒸餾等辦法降低模型大小。通過這些方面的優化,保證在不影響性能的情況下降低對運算資源的依賴,并對結果做更加精準地預測。

除了針對模型的優化與精簡外,有道自研了離線推理架構,從以下幾個方面優化推理性能: 

  • 底層計算:手寫 ARM NEON 彙編級優化,運作 Winograd 卷積算法,網絡層合并;
  • 資料管理:重新設計資料排布,高效向量化,支援 FP32/FP16/INT8;
  • 異構平台:多核并行計算,支援 CPU/GPU,模型可以一鍵轉換,自動裁剪;

在新計算引擎的支援下,整個鍊路的計算速度提升 20%。

“整個優化是從模型、架構、工程等各個層面全方位的更新。”段亦濤認為。

04 智能硬體的新變量

在更新詞典筆視覺點讀業務的同時,有道也在給其他業務提供視覺技術的支援。段亦濤向機器之心表示,有道有面向 B 端學校的項目,當中有一款硬體産品叫做有道智能學習終端,可以用于識别和收集錯題。對視覺技術的要求極大。

随着人工智能技術對學習、教學場景的重塑日趨成熟,有道在技術方面也逐漸深入。網易有道在智能硬體相關的技術研發投入了很大的力量,在包括計算機視覺、自然語言處理、語音技術、高性能計算和異構計算,以及硬體研發方面都有深厚的積累。

目前重技術的智能硬體産品成為網易有道最為重要的業務版圖。在第三季度财報中,智能硬體為有道貢獻 1.631 億元,同比增長 289.3%,首次超過廣告業務。有道的學習型智能硬體正在爆發其巨大的商業變現潛力。

與此同時,諸如位元組跳動、科大訊飛、搜狗等公司也在教育智能硬體市場展現其巨大的野心。對使用者及教育企業而言,教育智能硬體能夠有效彌補 PC 或 APP 端的互動體驗、資料采集的不足,并有利于緩解獲客成本,提高使用者留存率。

究其各家的智能硬體産品,因切入的場景不同,教育硬體産品形态各異。無論是基于怎樣的技術細節及基礎,關鍵在于都需要結合使用者需求,将場景做透,在此基礎上,AI 能力、産品能力及内容缺一不可。

當下,有道詞典筆憑借在技術、産品及内容上的優勢已經成為萬衆矚目的硬體産品。以後,有道詞典筆會成為可複制的硬體嗎?面對機器之心的提問,段亦濤表示,“好的東西肯定會有人模仿,至少我們的先發優勢強。如果别人沒有做過這個東西,一定會付出時間的代價。我們隻要做到跑得比别人快。”

網易 CEO 丁磊曾在網易有道上市,及網易在港二次上市之時,向全國英語老師免費贈送有道詞典筆,至少在這個環節,有道詞典筆已經先搶下使用者認知,讓使用者體驗小小詞典筆背後神奇的 AI 力量。

對于現在市場上推出的智能硬體産品,段亦濤有自己的了解,他拒絕從工具功能性角度解讀,而是有更長遠的認知。

“在真實學習場景中,學生需要在實體世界裡留痕,是以任何智能工具,包括軟硬體,都無法颠覆原有的學習過程。我們可以做到的是,通過智能硬體介入學生學習的實體世界中,讓學習行為更加高效。同時通過獲得學習過程中的數字化資料,逐漸建立趨于成熟的數字化教學體系。”

從數字化角度看,網易有道是一家重算法的以技術驅動的教育科技公司。即使是百分之一的算法和架構優化,都能轉化為巨大的商業與教育價值。每一小步突破,就是重構教育的一大步。

© THE END 

轉載請聯系本公衆号獲得授權

投稿或尋求報道:[email protected]

繼續閱讀