天天看點

垂直搜尋新問題

當大家都在關注搜尋的速度的時候,往往伴随業務的快速發展,資料服務品質成為了實時搜尋或者垂直搜尋中的新問題。實時搜尋和垂直搜尋是不一樣的問題,下面的問題就是垂直場景下得實時搜尋問題。也可以了解垂直搜尋都不實時,其他的實時先排隊吧。問題比較抽象,隻談總體上的現象,對于具體如何解絕問題的細節,不做說明。有些不具有通用性,有些和場景相關,很難有最佳方式,不代表沒有解決方法。首先是有問題意識,然後自然有解決方法。

問題:

(1)個性化排序

伴随業務發展需要,同時細分使用者群體,為了最大程度優化服務品質、滿足更大群體的具體業務場景,個性化的排序越來越引起高度重視。傳統的文本相關性隻是第一維的參考,針對業務多元度綜合得分的二維排序最終影響排序。而一個平台上面臨的服務群體、服務場景多種多樣,有行業屬性、地域屬性、技術屬性、營運屬性等,很難完全統一,完全歸一化到一個計算公式中去。相反,針對類目、行業等屬性,局部優化,影響和改進進度和風險都大大都到控制。應用更希望有針對性的個個優化,而不尋求一個統一的模型,相容各方面次元需求。

對于引擎來說,單次元排序實作是比較容易的,但是當出現10個、20甚至50多個次元的時候,索引結構變得臃腫,schema管理起來費勁。

另外,直接單次元原始值,非常容易引起作弊,進而影響公平性。這是個性化排序需要深入防範的,在突出重點因子的時候,是需要平衡其他因子的,否則鑽孔子、作弊就會影響服務的客觀性。

(2)一緻性

由于垂直,使得業務領域或者邊界相對來說比較清晰。業務的主體屬性、主體行為,相關的結果某種程度是可控的。但是一個垂直平台上絕不是單一的一個服務,相反是高度聚合的相關聯的、專業的、全面的服務産品。從入口到幫助到離開,與核心應用相關的各種輔助、促進、支援的資訊一應俱全。而具體服務滿足個性化、特殊階段等需求,使得資料存在某些不一緻性。而這種不一緻性,伴随應用擴充,更加清晰。

例如

圖檔的分類和文本描述的不一緻性,圖檔的文本屬性和圖檔直覺的感受不一緻,具體商品的價格和排序的價格或者标榜的價格不直接吻合,可能隻有店鋪中得一件商品是哪個最低價,誤導使用者全部商品都是哪個最低價。頻繁的來回修改屬性、風格、模闆等,為了争取排序機會,而實際有效變動很少,變動的貢獻值的度量化變得複雜。個别使用者的粉絲、關注呈異常增長趨勢,這與業務總體趨勢極為不一緻,對突發和非正常的監控成為垂直場景中,最容易忽視的環境。因為這些不一緻不影響功能,似乎被認作錦上添花之舉。實際上,各個創業公司在細分市場上打拼,玩的就是細緻、專注、一絲不苟。當一緻性的存在被放大或者默許,高品質的資訊就會被稀釋,甚至完全淹沒。為什麼很多應用前景都是樂觀的,而實際總是沒有大的突破,我覺的和細節處理有很大關聯,隻追求上線的那刻,忽視了後續持續的品質提升,因為後面的工作好比雞蛋裡找骨頭。

(3)資料挖掘

沒有挖掘的搜尋,最終就是一個弱化的存儲。沒有挖掘的垂直市場,應用遲早斷送了使用者群體。垂直化資料本身就非常具有一定局限性、自包含性、内容為主型。在平台上,不推新破舊,不時時對使用者提供小驚喜,熱度過後,口碑是否能持續和忠實粉絲不流失,不得不考慮。如果隻是短期應付,不考慮更長期的發展,這個産品走不遠。垂直的應用往往可以簡單了解為一個工具,一個工具最重要的是輕巧、舒适、小創意。體驗為王!

(4)歸一化

資訊來源的豐富,評論、分享、圖檔、商品、轉發、關注、粉絲、交易、成交、更新、價格....

既有具體次元的需求,也有綜合次元的需求。需要對多來源資訊貢獻值進行歸一化。好處就是,提升預設排序的品質,減少互動或者導航的成本,通過首頁的高品質資訊,逐漸在使用者閱讀、浏覽過程中,自然的導航到準确或者擴充資訊源。避免頁面過多的選擇、點選或者跳轉。這個與目前垂直的"豐富性"“明确性”似乎背道而馳。在本身邊界、業務場景相對單一的場景下,繼續追求統一、簡單,顯得有點“強人所難”。如果說做到什麼樣的歸一化最好呢,可以拿手機體驗做參照,頁面可以做到和手機一樣的體驗,歸一化就差不多到位了。這是個人了解的,不一定合理。

另外,歸一化後,垂直服務對為輸出可能更容易維護。利于,有歸一化度量的“使用者品質”(關注、粉絲、分享、評論)或者“特征集”(分享興趣、關注興趣、轉發興趣等),這樣其他垂直對使用者排序可以參照使用者品質,對使用者關聯推薦,可以直接引用特征集等。

歸一化和挖掘輸出緊密關聯,歸一化細分更多、更豐富豐富,挖掘就更加容易發現和輸出新内容。

所有這些問題,最後離不開搜尋的支援,離不開索引的設計、排序的優化。