天天看點

算法專家解讀 | 開放搜尋教育搜題能力和實踐

簡介: 達摩院算法專家--徐光偉(昆卡)聚焦線上教育行業的拍照搜題場景,介紹如何應用開放搜尋來建構更高搜尋性能及搜題準确率的搜題系統,進而助力線上教育行業客戶掌握更高層次使用者體驗的獲客工具。

講師:徐光偉(昆卡)--阿裡雲達摩院算法專家

視訊位址:https://developer.aliyun.com/live/246649

教育搜題解決方案位址:https://www.aliyun.com/page-source/data-intelligence/activity/edusearch

開放搜尋簡介-引擎優勢

開放搜尋(OpenSearch)是基于阿裡巴巴自主研發的大規模分布式搜尋引擎搭建的一站式智能搜尋業務開發平台,通過内置各行業的查詢語義了解、機器學習排序算法等能力,提供充分開放的算法及引擎能力,助力開發者快速搭建更高性能、更高搜尋基線效果的智能搜尋服務。

其搜尋引擎采用阿裡自研的整套搜尋工程體系-AIOS系統,支撐着阿裡系包含淘寶、天貓、lazada、閑魚、優酷、菜鳥、盒馬等全部的搜尋場景,在穩定性和工程效率上都是行業領先水準。開放搜尋簡介-算法優勢

開放搜尋(OpenSearch)在算法上內建達摩院NLP(自然語言處理)團隊的核心技術,NLP Foundations 中的詞法分析、句法分析、語義分析、文本分析、deep learning 技術都處于業界領先。通過對各行業智能語言處理的深入研究,在開放搜尋的行業應用中産品化落地。

教育搜題-業務背景

近幾年線上教育行業飛速發展,根據2020中國移動網際網路教育學習APP行業月活使用者規模TOP10的統計,月活前十中針對K12教育的APP有6個,具備搜題場景的APP有5個;說明了搜題功能在教育行業的的重要性。

(資料來源:QuestMobile<2020中國移動網際網路年度大報告>)

工具型的産品能力,它是用來幫助産品獲得大量的使用者和流量,進而為其他的業務提供變現能力。線上教育行業中拍照搜題作為産品掠取流量最重要的工具,抓住了家長、學生輔導和解題上需求,為其他的業務變現提供源源不斷的流量。正是由于這樣的定位,搜題的準确性和效率變得更加重要,将直接影響品牌的口碑和使用者粘性。

教育搜題-業務特點

海量題庫

客戶的題庫一般都是千萬甚至億級别,而且還在快速持續的增長。同時搜題業務存在比較明顯的高峰現象。在平時的晚上787到8點,尤其是周末的最後一天或者是節假日的最後一天。QPS存在很明顯的高峰,具備高彈性和低延遲的雲搜尋,雲搜尋能力就成為了客戶的首選。

場景豐富

搜題的場景越來越豐富,涵蓋不同的年級,比如低年級出現比較多的像看圖識字、連線題等,這種需要圖檔資訊的,還有包含不同的學科,現在已有的學科已經超過10個,這些豐富的場景都會對搜尋效果産生影響。

算法需求

因為搜集産品一般隻會展現top 3到top5的1個結果,對于準确性的要求極高,同時還會依賴一些多模态和多元的算法能力來解決圖文搜尋和多元處理的需求。

開放搜尋如何提供精準高效、穩定的一站式搜題解決方案

  • 左邊:使用者拍照題目,經過OCR識别之後的文本,通過中間的開放搜尋(OpenSearch )引擎得到Top 3-5的召回結果進行展示;
  • 右邊:客戶題庫,開放搜尋會嚴格保證客戶資料的安全和隐私;
  • 中間:開放搜尋(Open Search )引擎部分包含了文檔召回、排序定制和幹預功能三大子產品;

開放搜尋Query處理流程

查詢語義了解

案例說明:

教育搜題定制分詞器

搜題場景分詞難點:

  1. 英文題目,ocr 識别之後的空格缺失;
  2. 數學題目latex公式表示之後的切分;

解決方法:

  • 針對第一個問題,收集千萬級K12英文語料訓練語言模型,即便對超長的英文連寫也可以精準切分;
  • 針對第二個問題,利用開放搜尋自帶的分詞幹預能力将latex表示中的運算符号預處理;   

類目預測-學科、題型分類

什麼是類目預測?

  簡單來說,使用者輸入一個query,查詢得到一批商品,通過計算每一個商品所屬的類目與query之間的相關度,隻要商品的排序公式中引用了這個相關度,那麼對于這個商品來說,它所屬的類目與query的相關度越高,它的排序公式的計算結果就獲得了越高的排序得分,進而這個商品就會排在越前面。

教育行業中的應用

  • 結合輸⼊的圖⽚資訊和OCR識别之後的結果預測輸⼊題⽬的學科類别、題目類型;
  • 預測各⽂本⽚段的字段類型(題幹描述、選項等等);

詞權重分析

功能介紹:該功能主要分析了查詢中每一個詞在文本中的重要程度,并将其量化成權重,權重較低的詞可能不會參與召回。這樣可以避免當使用者輸入的查詢詞中包含一些權重低的詞時,仍然按使用者輸入的查詢詞限制召回,導緻命中結果過少。

功能用途: Query丢詞、改寫、文本相關性分析;

1. 基于使用者行為生成訓練資料

首先是基于querydock 點選行為去建構點選圖,然後利用vpc 計算法得到TOM 之間的一個重要度偏訓

2. 詞權重模型訓練

  • 在進行規劃之後得到訓練資料利用序列标注模型去預測每一個特用的權重;
  • 預測标簽(7,4,1), 分值越⾼表⽰term的重要性越⼤, 召回結果更準确;

示例:

Query改寫-幹預功能

開放搜尋除了已經内置的這些算法能力同時還支援使用者的批量幹預::詞典、拼寫糾錯,同義詞,詞權重等;

示例:

  1. OCR識别可能會把一些非題目要素識别進來幹擾query分析的結果,這時候可以使用詞權重幹預的方式保證非題目要素字段被打标成低權重,保證召回和排序效果;
  2. 使用者可以自定義同義詞來擴召回,例如“立方米” -> “噸”;

教育搜題排序定制

系統開放了兩階段排序過程:基礎排序和業務排序,即粗排和精排;基礎排序即是海選,從檢索結果中快速找到品質高的文檔,取出TOP N個結果再按照精排進行精細算分,最終傳回最優的結果給使用者。為了實作更細粒度的排序效果,結合排序表達式(Ranking Formula)可以為應用自定義搜尋結果排序方式 。

多路召回-語義向量召回

為什麼搜題要做多路召回?

教育拍照搜題場景相比網頁/電商的文本搜尋有顯著差異:

  • 搜尋query特别長:正常檢索term數上限30,搜題需要放到100;
  • 搜尋query是由拍照OCR識别之後得到的文本,關鍵term的識别錯誤會嚴重影響召回排序;

純文字查詢方案

1. OR邏輯查詢

  • 為了降低無結果率,搜題客戶常見的系統是基于ES預設的OR邏輯,latency高,計算消耗大;
  • OpenSearch也支援OR邏輯,針對latency高可以通過并行seek的方式優化,但整體計算消耗仍然高;

2. AND邏輯查詢

  • 采用通用的query分析子產品,無結果率高,整體準确性不如OR邏輯;
  • 針對教育領域優化定制的query分析子產品,大幅提高效果,準确性接近OR邏輯;

如何去兼顧計算消耗和搜尋準确性那?我們在此引入了文本向量檢索

文本向量檢索

目标:通過文本向量檢索擴召回,結合AND邏輯查詢,做到latency和計算消耗低于OR邏輯的情況下準确性更高;

向量召回采用目前最先進的BERT模型,其中針對教育搜題做的特别優化有:

  • BERT模型采用達摩院自研的StructBERT,并針對教育行業定制模型;
  • 向量檢索引擎采用達摩院自研的proxima引擎,準确性和運作速度遠超開源系統;
  • 訓練資料可以基于客戶的搜尋日志不斷積累,效果持續提升;

這個圖我們可以看到有一項召回,在召回率上已經達到凹邏輯。同時在準确性上現在超出2邏輯3到5個點,整體的召回到數減少40倍的情況下,latency 可以降低10倍以上。

效果:

  1. 召回率達到OR邏輯
  2. 準确性超出OR邏輯3%-5%
  3. 整體召回doc數量減少40倍,latency降低10倍以上

多路召回-文本向量多路召回

多路召回優勢:

   文本召回和語義向量召回的結合在搜題場景已經驗證有效,開放搜尋的多路召回架構還将有更多的使用空間:圖檔向量召回、公式召回、個性化召回。

   除了開放搜尋内置的向量模型,我們也将支援客戶自己的向量索引,歡迎客戶和我們一起深耕搜題算法優化。

搜題案例效果展示

案例1:搜題query:"張慧研所指與小磁大概相近的是樂府之音

案例2:搜題Query: “如圖是由一些相同的小正方體搭成的幾何體從三個不同方向看得到的形狀圖,則搭成這樣的幾何體需要__個小正方體

最佳實踐 – 開放搜尋對比開源/自建優勢

1、某K12教育客戶: 某線上教育平台,主打K12教育,使用者數千萬級别,題庫量8千萬左右且持續增加,由自建題庫和第三方題庫兩部分組成,之前通過OCR+自建ES搜尋服務實作拍照搜尋功能,面臨的主要問題是搜尋準确率待優化提升,降低搜尋延遲等問題。

客戶回報:

  • 搜題準确率絕對值提升5%;
  • 延時從100ms-300ms降到穩定50ms;
  • 離線資料同步大于4000TPS;

2、某高職教育客戶:某聚焦在大學生搜題領域的線上教育公司,産品DAU300W,月活1000W,業務高峰期日均搜題PV過億。

客戶回報:

  • 對比自建系統高峰搜尋耗時>2s,開放搜尋穩定搜尋耗時50ms,同比下降40倍;
  • TOP5題目搜尋準确率平均提升2.4%;
  • 搜尋無結果率從高于40%降低至不到1%;
  • 業務高峰期秒級平滑擴容,解決高并發搜尋需求;

如果您對搜尋與推薦相關技術感興趣,歡迎加入釘釘群内交流

【開放搜尋】新使用者活動:阿裡雲實名認證使用者享1個月免費試用

https://free.aliyun.com/product/opensearch-free-trial

原文連結:

https://developer.aliyun.com/article/783591?

版權聲明: 本文内容由阿裡雲實名注冊使用者自發貢獻,版權歸原作者所有,阿裡雲開發者社群不擁有其著作權,亦不承擔相應法律責任。具體規則請檢視《阿裡雲開發者社群使用者服務協定》和《阿裡雲開發者社群知識産權保護指引》。如果您發現本社群中有涉嫌抄襲的内容,填寫侵權投訴表單進行舉報,一經查實,本社群将立刻删除涉嫌侵權内容。

繼續閱讀