天天看點

「搜尋引擎」如何選擇企業搜尋引擎

在本部落格系列的第一部分中,我們詳細展示了智能企業搜尋的旅程:起點、要通路的地标和預想的目的地。這篇後續的部落格文章是關于導航到我們之前定義的一個裡程碑:選擇企業搜尋引擎。

人們很容易認為搜尋引擎的選擇是一項技術任務:哪個引擎比其他引擎更好?然而,如果單純考慮搜尋引擎的功能,您可能會發現不同搜尋引擎之間的差異是微乎其微的。當比較智能搜尋引擎增加的人工智能認知功能時,這種差異就更明顯了。盡管如此,在我們的旅程中還是有很多變量需要考慮。

我将描述為我們的客戶在選擇他們的新搜尋引擎時工作良好的步驟。

選擇企業搜尋引擎

「搜尋引擎」如何選擇企業搜尋引擎

5步選擇企業搜尋引擎

步驟1:确定潛在的搜尋引擎

讓我們先列出所有可能适合您需要的搜尋引擎。

清單的第一個來源是您目前的供應商。您的組織中可能已經有兩個或更多的搜尋引擎在運作。任何由供應商或活躍的開源社群維護和支援的目前部署的搜尋引擎都可以考慮。如果你的搜尋引擎還沒有更新到最新的穩定版本也沒關系。在這種情況下,将搜尋引擎的最新版本添加到您的清單中,以便您最終将最新版本與其他選項進行比較。

第二個來源可能是分析師報告,比如Gartner的Insight引擎魔力象限報告或Forrester Wave™認知搜尋報告。一定要找最新的。這些資源為你的研究提供了很好的概覽資訊。

如果您從事電子商務或其他特定領域,那麼除了針對您所在行業的專門功能外,您可能還希望尋找具有強大嵌入式搜尋的目标應用程式的報告。在這種情況下,您可能尋找的不是企業搜尋引擎,而是更側重于用例的搜尋解決方案。本部落格仍然适用于選擇這樣的搜尋平台。

行業分析師通常根據某些條件建立他們的清單,可能不會産生一個詳盡的清單。是以,完成你的清單的第三個來源将是任何你可能讀到或聽說過的搜尋引擎。它可能是您尚未從現有供應商使用的産品。或者你在營銷郵件、會議、網絡研讨會上看到的東西。

第二步:縮小你的候選搜尋引擎清單

如果你的清單中有超過12個搜尋引擎,我建議你将搜尋範圍縮小到幾個——也就是說五個或更少。對于我們通常做的評估類型,我更喜歡最多使用三個引擎。

為了從名單中删除一些候選人,我喜歡從檢查每個候選人與主要破壞者之間的關系開始。通常情況下,我隻需要做一點點工作就可以取消一些申請者的資格。下面的清單展示了我過去看到的一些潛在的阻礙。每個組織都是不同的,有些組織可能有反對或支援下面一項或多項内容的政策或訓示。是以,在經曆每一件事的時候,考慮一下你目前的情況和對未來的期望。

  • 自托管。這是DIY模型。無論它在您的資料中心還是基于雲的虛拟機中,您都負責部署、配置、維護和更新搜尋引擎。許多組織正在遠離這種傳統的模型,以避免需要在内部管理軟體。如果您更喜歡托管服務,那麼任何自托管引擎都将從清單中消失。
  • 來自搜尋引擎供應商的軟體即服務(SaaS)或平台即服務(PaaS)。這些是托管雲服務,如AWS Elasticsearch或Amazon Kendra,谷歌雲搜尋,Azure認知搜尋等。我的一些客戶更喜歡PaaS而不是SaaS,因為PaaS方法提供了額外的資料控制。您可能需要與您的安全、隐私或法律團隊就遵從性進行檢查。這有助于迅速取消一些候選人的資格。
  • 封閉引擎。您可能熟悉現已停産的谷歌搜尋裝置(GSA)。它對于某些應用程式或組織來說很好,但對于其他應用程式或組織來說還不夠。這基本上是一個黑箱解決方案。雖然有像GSA這樣的産品,但需要定制或更多的控制将取消一個封閉引擎的資格。
  • 混合式。混合式有多種變種。它可能是一個整合了推薦服務的自托管搜尋引擎;您的私有雲與本地雲的組合;或您的私有雲與第三方雲服務;等。這些是更複雜的解決方案,但是組織有合理的理由要求這樣的部署。有些搜尋引擎在混合解決方案中表現不佳,是以不适合進行評估。

根據您的組織需求,您可能有一組更具體的項目。可能有基于預先準許的供應商清單的限制,因為加入一個新的供應商可能太耗時或複雜。我們的目标是在沒有太多分析的情況下,快速地将一些搜尋引擎從清單中劃掉。請記住,我們試圖将我們的名單縮小到最有前途的候選人,希望縮小到三個或一個可管理的名單,以便進行更深入的比較。

第三步:定義評估标準

根據我的經驗,當你與多個利益相關者打交道時,你選擇一個多年有用的搜尋引擎的幾率會增加。與你目前的搜尋利益相關者合作,但不要忘記未來的利益相關者。同時考慮目前和未來的搜尋用戶端,可以讓你更好地評估現有的選擇。

雖然您組織的一些應用程式可能已經具有了搜尋功能,但它們可以從企業平台而不是筒倉實作中獲益。

以下是你的評估标準的一些一般類别。我将深入到每個類别,并概述我們的客戶通常需要或希望擁有的特定元素。

  • 連接配接器或爬蟲。這些機制用于将資料從源加載到搜尋引擎中。對于需要索引的資料源,搜尋引擎有多少個連接配接器?除了現在必須索引的源之外,還應該包括将來可能索引的源。如果您計劃在一到兩年内停用一個源,您可能想要排除該源,因為您可能不希望在其資料遷移到新的源之前對其進行索引。
  • 索引前的資料處理。為索引準備資料是最有價值的活動之一,但在搜尋實作中經常被忽略。為了提高可查找性、搜尋相關性計算、過濾、排序或其他需要,資料需要清理、規範化或豐富。一些搜尋引擎包括開箱即用的資料處理器,并支援針對特定資料處理需求的定制處理器。
  • 查詢處理。搜尋術語,或者在某些情況下,用于查詢的非結構化文本也可以從搜尋方面的一些準備中獲益。就像它在索引、查詢清理、規範化或充實方面所做的那樣,這将使搜尋引擎能夠更好地查找比對的文檔或根據相關性對它們進行評分。一些搜尋引擎提供了您可能會使用的具有特定意圖的開箱即用的查詢解析器。最後,尋找将來可能需要添加自定義查詢元件的可擴充性功能。
  • 語言學的支援。如果您的内容采用多種語言,那麼支援或可擴充性能力可能是選擇一種引擎而不是另一種引擎的關鍵原因。語言通常同時應用于索引端和查詢端。語言學可以用作處理管道元件或文本分析特性。
  • 第三方系統內建。随着時間的推移,一些搜尋引擎與内容管理系統或軟體結成了強大的合作夥伴關系,甚至可能為軟體中的搜尋功能提供支援。在這種情況下,搜尋引擎可能已經與其他軟體進行了本地內建。這是針對特定搜尋需求的加速器。
  • 搜尋結果安全性調整。企業搜尋應用程式必須保證使用者隻能從為他們準備的資料集獲得搜尋結果。許多搜尋引擎提供對文檔級别或中繼資料字段的通路控制。然而,一些搜尋引擎足夠靈活,可以實作字段級安全性。有些引擎不提供開箱即用的安全性調整,但可以通過自定義內建或插件來支援它。
  • 使用者界面(UI)工具包。雖然您可能擁有自己的UI開發團隊,但您可能需要開箱即用的UI元件來促進搜尋客戶機應用程式的內建。一些發動機帶有這樣的部件;其他一些工具允許您建立獨立的搜尋應用程式或完整的搜尋結果頁面(SERP),以嵌入到您自己的系統中。
  • 搜尋分析和網站分析。搜尋引擎通常生成或允許生成搜尋信号或事件。不斷增長的搜尋和網站分析功能使智能搜尋引擎能夠提供更相關和個性化的搜尋結果。這些分析特性可以使用機器學習(ML)或其他進階方法來分析信号或産生見解。
  • 進階人工智能(AI)功能。智能搜尋引擎獲得他們的資格基于他們提供的人工智能功能。相關性評分、基于mlb的查詢建議、推薦、查詢意圖和各種其他ai支援的特性的自動調優并不是搜尋引擎的标準,這可能是選擇一個而不是另一個的原因。
  • 授權模型。與任何軟體一樣,許可證是至關重要的。供應商使用的模型規定了成本、可擴充性、可伸縮性或其他需要為您的需求仔細分析的條件。
  • 測試支援。一些引擎内置了執行A/B測試、ML模型測試或比較、相關性排名評估等功能。我很高興看到添加了這些特性,使産品負責人、搜尋管理者和開發人員更容易改進相關性。

您可以使用其他标準來擴充上述清單,如管理使用者界面、軟體開發工具包(SDK)、日志、監控、文檔或其他您感興趣的領域。

第四步:根據标準評估你的候選搜尋引擎

你現在應該有了三個左右的候選人,以及評估标準。多年來,我和我的同僚制作了多個電子表格用于搜尋引擎評估。一般流程如下:

  1. 建立一個表
  2. 列舉您定義的所有标準
  3. 确定每個标準的權重
  4. 評估所有候選搜尋引擎的每個标準
  5. 将你對該标準的評估與配置設定的權重相乘,這會生成每個引擎的标準得分
  6. 在搜尋引擎的所有标準中總結得分

在步驟4之後,您應該對所有潛在搜尋引擎的所有标準進行評估。這一步包括研究搜尋引擎的文檔,咨詢搜尋引擎專家,在某些情況下,聯系供應商。

第五步:檢查你的分數卡,選擇最合适的

電子表格的目的是為潛在的搜尋引擎提供一個客觀的評估。這個步驟應該很簡單,因為電子表格已經計算了每個類别的分數以及每個搜尋引擎的總分數。

但通常情況下,不同選項的總分差别并不大。這時分類就派上用場了。您可以根據對您的需要更重要的某些類别來選擇最終的引擎。如果你選擇把重點放在比較某些類别的小計分值上,就不要有一個非常主觀的因素,因為它可能會在最終的選擇中造成偏差。

旅程的下一站:計劃您的搜尋引擎實作

恭喜你!經過仔細的評估,您已經選擇了您的下一個企業搜尋引擎。旅程還在繼續,但在實施之前還有很多事情要做:

  • 計劃實施新的搜尋引擎,
  • 準備一個多學科的團隊以確定成功的實施,
  • 規劃對現有引擎的支援,
  • 教育訓練你的員工使用新引擎
  • 還有很多其他的東西。

它可能是壓倒性的…是以,計劃你的下一段旅程是必要的。還記得我在本系列的第一部分中描述的地标嗎?在搜尋引擎選擇過程中,您可能會識别出其他地标,并弄清楚如何到達它們。