1.QC簡介
1.1QueryCorrection(QC)
QC顧名思義,就是将使用者輸入的錯誤檢索串,進行模型計算,推測使用者意圖,發現能真正滿足使用者搜尋需求的正确輸入形式,并将正确結果展現給使用者,進而幫助使用者更快的找到所需的資訊,最終滿足查詢的需求。
1.2QC形式
QC包含兩種形式,一類是單詞拼寫錯誤,早期的英文串糾錯就是通過字典進行單詞正确性的糾錯;第二類是上下文搭配不當引起的錯誤。在中文中不存在第一類的錯字情況,隻有字與字搭配的詞條是否合理,或者一連串詞條搭配能否組成一個通順的句子,是以中文糾錯主要解決的是上下文搭配問題。
1.3QC作用
召回 | |
精度 | |
直達區 |
1.4QC類型
錯誤類型 | 糾錯示例 |
數字 | 2408->2048 |
英文 | Fiappy->flappy Whatasapp->whatsapp |
拼音 | Talang->踏浪 wangfei ->王菲 |
簡拼 | Zgr->中國人/張國榮 Xiaopg->小蘋果 |
缺字 | 手機助->手機助手 倍爽->倍兒爽 |
多字 | 你是我的眼毛->你是我的眼 送情郎當紅軍->送郎當紅軍 |
換字 | 笨鳥學飛->笨鳥快飛 |
漢字拼音 | 朗朗->郎朗 草冒歌->草帽歌 |
模糊音 | 四面埋伏->十面埋伏 |
拼音+英文 | 2014zuixindj->2014最新dj |
漢字+英文 | 江南st->江南style |
漢字+拼音 | 情非得已tongs->情非得已童聲 |
換序 | 老師對話->對話老師 宗雨林->雨宗林 |
形近字 | 許蒿精選->許嵩精選 中固話->中國話 |
關聯 | 時間都去哪了 王铮->時間都去哪兒了 王铮亮 阿杜擦一點 ->阿杜差一點 |
Part糾錯 | 非主流 dj背盡音樂 dj ->非主流 dj背景音樂 dj |
2.騰訊雲搜QC子產品介紹
2.1通用QC
通用QC即網頁QC,騰訊雲搜預設提供通用QC功能。通用QC是在soso早期就形成的糾錯服務,經曆了若幹同學的努力,糾錯政策更加豐富,字典積累逐漸完善,算法和流程也更加自動化,在評測對比中,和競品持平或者略勝。
圖表 1通用QC
2.1.2通用QC的優點
通用QC可以滿足非特定領域知識的糾錯,對比較常識性的錯誤進行糾正。如下舉例:
錯誤類型 | 糾錯示例 |
拼音 | Talang->踏浪 wangfei ->王菲 |
漢字拼音 | 朗朗->郎朗 草冒歌->草帽歌 |
2.1.2通用QC的局限
在開發騰訊雲搜糾錯服務的調研過程中,發現網頁QC并不能滿足所有業務的需求,比如一些很有産品特色的名詞,無法進行糾錯:
錯糾 | shixiong -> 師兄 (屍兄) [視訊] laobing -> 烙餅 (老兵) [視訊] |
漏糾 | 羅绮 -> 羅琦 lqyjjl -> 戀曲一九九零 老子今天不上班 -> 老子明天不上班 pround foryou -> pround of you 變形記湖南衛視 ->變形計 湖南衛視 |
過糾 | cup -> cpu [視訊] 百分摔跤->百分摔角 [應用寶] |
2.1.2通用QC體驗位址
在以下位址可以體驗寄出分詞和通用QC服務http://yunsou.qq.com/search_experience.cgi
2.2進階QC
進階QC即垂搜QC,騰訊雲搜進階QC是在通用QC服務的基礎上,進行了二次開發,不同的業務進行了定制化的服務,包括線上政策、離線挖掘、幹預等子產品等。具體流程如下:
圖表 2進階QC
2.2.1進階QC系統流程
糾錯系統大緻分為幾個部分,包括資料篩選和去噪,索引建構,線上檢索,對結果進行終判得到最終結果。可以歸納為三部分:離線資料處理,資料召回和排序終判。
2.2.2進階QC分層設計
邏輯上分為四個層次:
接入層 | 負責業務接入的接口; |
決策層 | 對各個業務進行定制化的排序服務;各種計算插件; |
召回層 | 資料索引建構;線上檢索召回; |
資料層 | 資料篩選和去噪;離線糾錯對挖掘;營運名額統計和監控;線上回報。 |
圖表 3進階QC邏輯圖
2.1.2進階QC體驗位址
進階QC由于與業務直接關聯,可以在QQ音樂搜尋體驗。
2.3兩者的差異
進階QC | 通用QC | |
意圖 | 意圖明确,使用者需求大部分是具體的資源 | 意圖發散,需要滿足所有需求 |
模型 | Log量少,百萬級别(甚至沒有); 可用于離線挖掘語料稀疏 | Log量巨大,近3個月上億的資料量 |
融合 | 多樣:Top3,全糾, 提示,混插等 | 單一:Top3,全糾 |
用戶端 | 無線占絕大比例 | 主要是Pc端 |
表格 1意圖差異case
[應用寶] [原串] [音樂] | |
[應用寶] [原串] [視訊] | |
[應用寶] [原串] [視訊] |
2.4. 進階QC的優點
1.業務之間不耦合,各業務索引叢集是獨立的
2.更關注算法,不在業務上耗費精力
3.召回路由,政策算法可配置
4.小的業務可以不提供資料,也可以共享相關政策。