教育行業搜尋業務背景
近幾年線上教育行業飛速發展,根據2020中國移動網際網路教育學習APP行業月活使用者規模TOP10的統計,月活前十中針對K12教育的APP有6個,具備搜題場景的APP有5個;

(資料來源:QuestMobile<2020中國移動網際網路年度大報告>)
線上教育行業中,題庫、詞典、拍照搜題作為産品掠取流量最重要的工具,抓住了家長、學生輔導和解題上需求,為其他的業務變現提供源源不斷的流量。在市場競争激烈,産品同質化嚴重的的情況下,面對不斷激增的題庫和高并發的使用者搜尋,如何保障線上教育行業搜尋的性能和算法準确性尤為重要,這将直接影響品牌的口碑和培養高粘性忠實使用者。
教育搜題業務特點
- 海量題庫且持續增長,資料庫壓力大;
- 存在高峰時段集中,使用者搜尋并發量大,搜尋延遲直接影響使用者體驗;
- 覆寫不同階段學習、使用者場景越來越豐富;
- 學科分類衆多,資料越來越複雜,搜尋存在跨學科錯誤;
- 需要強大的算法算力支撐,提升搜題準确性;
- 依賴多模态搜尋能力來解決圖文搜尋需求
- 依賴多語言處理能力來處理英語等其他語言搜題需求
阿裡雲開放搜尋教育行業最佳實踐
教育行業查詢意圖了解能力
1.query處理流程
線上教育搜題場景最佳實踐
2.查詢語義了解
分詞是影響搜尋效果的最基礎的子產品。開放搜尋內建了教育搜題行業專屬的教育分詞器,同時在此基礎之上使用者還可上傳自己的分詞詞條定制個性化的分詞器。
- 示例
Query | 下面三角形的面積是多少平方厘采? |
拼寫糾錯 | 下面三角形的面積是多少平方厘米? |
學科類目預測 | 數學 |
分詞 | 下面 三角形 的 面積 是 多少 平方 厘米 ? |
詞權重 | 1 7 1 7 1 4 7 7 1 |
同義詞改寫 | 平方 厘米 -> (cm ^ 2) |
3.類目預測
什麼是類目預測?
簡單來說,使用者輸入一個query,查詢得到一批物品,通過計算每一個物品所屬的類目與query之間的相關度,隻要物品的排序公式中引用了這個相關度,那麼對于這個物品來說,它所屬的類目與query的相關度越高,它的排序公式的計算結果就獲得了越高的排序得分,進而這個物品就會排在越前面。
類目預測在教育行業的應用:
- 結合輸⼊的圖⽚資訊和OCR識别之後的結果預測輸⼊題⽬的學科類别、題目類型;
- 預測各⽂本⽚段的字段類型(題幹描述、選項等等);
4.詞權重分析
功能介紹:該功能主要分析了查詢中每一個詞在文本中的重要程度,并将其量化成權重,權重較低的詞可能不會參與召回。這樣可以避免當使用者輸入的查詢詞中包含一些權重低的詞時,仍然按使用者輸入的查詢詞限制召回,導緻命中結果過少。
功能用途: Query丢詞、改寫、文本相關性分析;
(1)基于使用者行為生成訓練資料
(2)詞權重模型訓練
- 序列标注模型 ;
- 預測标簽(7,4,1), 分值越⾼表⽰term的重要性越⼤,召回結果更準确;
示例:
query: 35 的 因數 有 ( ) , 100 以内 24 的 倍數 有 ( )
對應權重分:4 1 7 1 1 1 1 1 1 4 1 7 1 1 1
此題目中“因數”和“倍數”的權重分最高7分,參與召回的權重也就最高,其次是“35”和“24”為4分,其他權重分為1分的,不參與召回;
5.query改寫
為了滿足業務的靈活需求,開放搜尋支援批量幹預:詞典、拼寫糾錯,同義詞,詞權重等。
1)OCR識别可能會把一些非題目要素識别進來幹擾query分析的結果,這時候可以使用詞權重幹預的方式保證非題目要素字段被打标成低權重,保證召回和排序效果
2)使用者可以自定義同義詞來擴召回,例如"立方米" -> "噸"
排序定制
系統開放了兩階段排序過程:基礎排序和業務排序,即粗排和精排;基礎排序即是海選,從檢索結果中快速找到品質高的文檔,取出TOP N個結果再按照精排進行精細算分,最終傳回最優的結果給使用者。為了實作更細粒度的排序效果,結合排序表達式(Ranking Formula)可以為應用自定義搜尋結果排序方式。
,
客戶效果對比
某線上教育平台,主打K12教育,使用者數千萬級别,題庫量8千萬左右且持續增加,由自建題庫和第三方題庫兩部分組成,之前通過OCR+自建ES搜尋服務實作拍照搜尋功能,面臨的主要問題是搜尋準确率待優化提升,降低搜尋延遲等問題。
客戶回報
- 搜題準确率絕對值提升5%;
- 延時從100ms-300ms降到穩定50ms;
- 離線資料同步大于4000TPS;
搜題效果前後對比
- 搜題Query: "張慧研所指與小磁大概相近的是樂府之音"
舊版自建召回結果 | 開放搜尋召回結果 | |
top1 | 某歌舞團獨唱演員張慧月工資5800元,2006年6月,張慧參加了該團在上海的3場演出,得到3800元報酬... | 張惠言所指與“小詞”大概相近的是樂府之音。 |
top2 | 張慧研對音樂的喜好源于... | 張惠言所指與“小詞”大概相近的是樂府之音。() |
top3 | 下列文獻中,屬于張慧老師在中國音樂期刊上發表文章的引證文獻是 | 下列選項中屬于張惠言所指與“小詞”大概相近的是()。 |
- 搜題Query: “如圖是由一些相同的小正方體搭成的幾何體從三個不同方向看得到的形狀圖,則搭成這樣的幾何體需要__個小正方體. 0 A 3 從上面看看從正面看”
| | |
| | |
| |
以上就是開放搜尋[線上教育搜題場景的最佳實踐],如果您對搜尋與推薦相關技術感興趣,歡迎加入釘釘群内交流
【開放搜尋】新使用者活動:阿裡雲實名認證使用者享1個月免費試用
https://free.aliyun.com/product/opensearch-free-trial