天天看點

騰訊雲搜糾錯(QC)系統----使用者的每一次錯誤搜尋都能獲得驚喜 2.騰訊雲搜QC子產品介紹 2.4. 進階QC的優點

1.QC簡介

1.1QueryCorrection(QC)

QC顧名思義,就是将使用者輸入的錯誤檢索串,進行模型計算,推測使用者意圖,發現能真正滿足使用者搜尋需求的正确輸入形式,并将正确結果展現給使用者,進而幫助使用者更快的找到所需的資訊,最終滿足查詢的需求。

1.2QC形式

QC包含兩種形式,一類是單詞拼寫錯誤,早期的英文串糾錯就是通過字典進行單詞正确性的糾錯;第二類是上下文搭配不當引起的錯誤。在中文中不存在第一類的錯字情況,隻有字與字搭配的詞條是否合理,或者一連串詞條搭配能否組成一個通順的句子,是以中文糾錯主要解決的是上下文搭配問題。

1.3QC作用

召回
騰訊雲搜糾錯(QC)系統----使用者的每一次錯誤搜尋都能獲得驚喜 2.騰訊雲搜QC子產品介紹 2.4. 進階QC的優點
精度
騰訊雲搜糾錯(QC)系統----使用者的每一次錯誤搜尋都能獲得驚喜 2.騰訊雲搜QC子產品介紹 2.4. 進階QC的優點
直達區
騰訊雲搜糾錯(QC)系統----使用者的每一次錯誤搜尋都能獲得驚喜 2.騰訊雲搜QC子產品介紹 2.4. 進階QC的優點

1.4QC類型

錯誤類型 糾錯示例
數字 2408->2048
英文

Fiappy->flappy

Whatasapp->whatsapp

拼音

Talang->踏浪

wangfei ->王菲

簡拼

Zgr->中國人/張國榮

Xiaopg->小蘋果

缺字

手機助->手機助手

倍爽->倍兒爽

多字

你是我的眼毛->你是我的眼

送情郎當紅軍->送郎當紅軍

換字 笨鳥學飛->笨鳥快飛
漢字拼音

朗朗->郎朗

草冒歌->草帽歌

模糊音 四面埋伏->十面埋伏
拼音+英文 2014zuixindj->2014最新dj
漢字+英文 江南st->江南style
漢字+拼音 情非得已tongs->情非得已童聲
換序

老師對話->對話老師

宗雨林->雨宗林

形近字

許蒿精選->許嵩精選

中固話->中國話

關聯

時間都去哪了 王铮->時間都去哪兒了 王铮亮

阿杜擦一點 ->阿杜差一點

Part糾錯 非主流 dj背盡音樂 dj ->非主流 dj背景音樂 dj

2.騰訊雲搜QC子產品介紹

2.1通用QC

通用QC即網頁QC,騰訊雲搜預設提供通用QC功能。通用QC是在soso早期就形成的糾錯服務,經曆了若幹同學的努力,糾錯政策更加豐富,字典積累逐漸完善,算法和流程也更加自動化,在評測對比中,和競品持平或者略勝。

騰訊雲搜糾錯(QC)系統----使用者的每一次錯誤搜尋都能獲得驚喜 2.騰訊雲搜QC子產品介紹 2.4. 進階QC的優點

圖表 1通用QC

2.1.2通用QC的優點

通用QC可以滿足非特定領域知識的糾錯,對比較常識性的錯誤進行糾正。如下舉例:

錯誤類型 糾錯示例
拼音

Talang->踏浪

wangfei ->王菲

漢字拼音

朗朗->郎朗

草冒歌->草帽歌 

2.1.2通用QC的局限

在開發騰訊雲搜糾錯服務的調研過程中,發現網頁QC并不能滿足所有業務的需求,比如一些很有産品特色的名詞,無法進行糾錯:

錯糾

shixiong -> 師兄 (屍兄) [視訊]

laobing -> 烙餅 (老兵) [視訊]

漏糾

羅绮 -> 羅琦

lqyjjl -> 戀曲一九九零

老子今天不上班 -> 老子明天不上班

pround foryou -> pround of you

變形記湖南衛視 ->變形計 湖南衛視

過糾

cup -> cpu [視訊]

百分摔跤->百分摔角 [應用寶]

2.1.2通用QC體驗位址

在以下位址可以體驗寄出分詞和通用QC服務http://yunsou.qq.com/search_experience.cgi

2.2進階QC

進階QC即垂搜QC,騰訊雲搜進階QC是在通用QC服務的基礎上,進行了二次開發,不同的業務進行了定制化的服務,包括線上政策、離線挖掘、幹預等子產品等。具體流程如下:

騰訊雲搜糾錯(QC)系統----使用者的每一次錯誤搜尋都能獲得驚喜 2.騰訊雲搜QC子產品介紹 2.4. 進階QC的優點

圖表 2進階QC

2.2.1進階QC系統流程

糾錯系統大緻分為幾個部分,包括資料篩選和去噪,索引建構,線上檢索,對結果進行終判得到最終結果。可以歸納為三部分:離線資料處理,資料召回和排序終判。

騰訊雲搜糾錯(QC)系統----使用者的每一次錯誤搜尋都能獲得驚喜 2.騰訊雲搜QC子產品介紹 2.4. 進階QC的優點

2.2.2進階QC分層設計

邏輯上分為四個層次:

接入層 負責業務接入的接口;
決策層 對各個業務進行定制化的排序服務;各種計算插件;
召回層 資料索引建構;線上檢索召回;
資料層 資料篩選和去噪;離線糾錯對挖掘;營運名額統計和監控;線上回報。
騰訊雲搜糾錯(QC)系統----使用者的每一次錯誤搜尋都能獲得驚喜 2.騰訊雲搜QC子產品介紹 2.4. 進階QC的優點

圖表 3進階QC邏輯圖

2.1.2進階QC體驗位址

進階QC由于與業務直接關聯,可以在QQ音樂搜尋體驗。

2.3兩者的差異

進階QC

通用QC

意圖

意圖明确,使用者需求大部分是具體的資源

意圖發散,需要滿足所有需求

模型

Log量少,百萬級别(甚至沒有);

可用于離線挖掘語料稀疏

Log量巨大,近3個月上億的資料量

融合

多樣:Top3,全糾, 提示,混插等

單一:Top3,全糾

用戶端

無線占絕大比例

主要是Pc端

表格 1意圖差異case

[應用寶] [原串] [音樂]
騰訊雲搜糾錯(QC)系統----使用者的每一次錯誤搜尋都能獲得驚喜 2.騰訊雲搜QC子產品介紹 2.4. 進階QC的優點
[應用寶] [原串] [視訊]
騰訊雲搜糾錯(QC)系統----使用者的每一次錯誤搜尋都能獲得驚喜 2.騰訊雲搜QC子產品介紹 2.4. 進階QC的優點
[應用寶] [原串] [視訊]
騰訊雲搜糾錯(QC)系統----使用者的每一次錯誤搜尋都能獲得驚喜 2.騰訊雲搜QC子產品介紹 2.4. 進階QC的優點

2.4. 進階QC的優點

1.業務之間不耦合,各業務索引叢集是獨立的

2.更關注算法,不在業務上耗費精力

3.召回路由,政策算法可配置

4.小的業務可以不提供資料,也可以共享相關政策。

繼續閱讀