識别重複内容的主要版本
我們知道Google不會懲罰Web上的重複内容,但是它可能會嘗試确定與同一頁面的其他版本相比,它更喜歡哪個版本。
我在本周早些時候從Web上的Dejan SEO上發現了有關重複内容的聲明,對此感到奇怪,并決定進行更多調查:
如果網絡上同一文檔有多個執行個體,則具有最高權限的URL将成為規範版本。其餘被視為重複項。
上面的引文摘自Link inversion上的文章,這是鮮為人知的主要排名因素。(這不是我在文章中所說的。我想看看專利中是否可能有類似的東西。我發現了更接近的東西,但并沒有說Dejan所預言的那樣。
我閱讀了Dejan SEO的有關重複内容的文章,并認為值得進一步探讨。當我環顧其中包含“ Authority”一詞的Google專利時,我發現該專利與Dejan所說的不完全相同,但是很有趣,因為它找到了區分不同重複内容的方法。基于優先級規則的域,這在确定哪些重複内容可能位于文檔的最高權限URL時很有趣。
該專利是:
識别文檔的主要版本
發明者:Alexandre A. Verstak和Anurag Acharya
受讓人:Google Inc.
美國專利:9,779,072
授予:2017年10月3日
送出:2013年7月31日
抽象
一種系統和方法從同一文檔的不同版本中識别主要版本。系統基于優先級規則和與文檔版本相關聯的資訊為每個文檔版本選擇權限的優先級,并基于權限的優先級和與文檔版本相關聯的資訊選擇主要版本。
由于專利的權利要求是美國專利商标局的專利審查員在起訴專利時要看的,并決定是否應授予專利。我認為有必要檢視專利中包含的權利要求,看看它們是否有助于封裝所涵蓋的内容。第一個捕獲了它的某些方面,這些方面在讨論特定重複頁面的不同文檔版本時值得考慮,以及如何檢視與文檔關聯的中繼資料以确定哪個是文檔的主要版本:
要求保護的是:
1.一種方法,包括:通過計算機系統,識别特定文檔的多個不同文檔版本;以及 通過計算機系統識别與多個不同文檔版本的每個文檔版本相關聯的第一類型的中繼資料,其中第一類型的中繼資料包括描述提供多個不同文檔的每個文檔版本的源的資料版本;由計算機系統識别與多個不同文檔版本的每個文檔版本相關聯的第二類型的中繼資料,其中第二類型的中繼資料描述了多個不同文檔版本的每個文檔版本的特征,而不是檔案版本的來源;對于多個不同文檔版本中的每個文檔版本,所述計算機系統将優先級規則應用于所述第一類型的中繼資料和所述第二類型的中繼資料,以生成優先級值;由計算機系統基于為多個不同文檔版本中的每個文檔版本生成的優先級值,從多個不同文檔版本中選擇特定文檔版本;并由計算機系統提供用于呈現的特定文檔版本。
這并沒有提出将文檔的主要版本視為該文檔的規範版本的主張,并且指向該文檔的所有連結都被重定向到該主要版本。
與該發明人共享另一項發明人的專利是,它引用了一個重複内容URL中的一個被選為代表頁面,盡管它沒有使用“規範”一詞。根據該專利:
共享相同内容的重複文檔由網絡搜尋器系統識别。接收到新爬網的文檔後,将識别一組與新爬網的文檔共享相同内容的先前爬網的文檔(如果有)。辨別新爬網文檔和所選文檔集的資訊合并為辨別新文檔集的資訊。基于每個此類文檔的獨立于查詢的度量,重複的文檔将包括在新文檔集中或從新文檔集中排除。在一組預定義條件之後,将為新文檔集辨別單個代表文檔。
在一些實施例中,一種用于從一組重複文檔中選擇代表性文檔的方法包括:基于第一文檔與獨立于查詢的分數相關聯,在多個文檔中選擇第一文檔,其中多個文檔中的每個相應文檔多個文檔的指紋具有辨別各個文檔的内容的指紋,多個文檔中的每個相應文檔的指紋訓示多個文檔中的每個相應文檔具有與多個文檔中的每個其他文檔基本上相同的内容,并且多個文檔中的第一文檔與獨立查詢分數相關聯。該方法還包括:根據查詢獨立分數,對第一文檔進行索引,進而産生被索引的第一文檔;以及
該其他專利是:
一組重複文檔的代表性文檔選擇
發明人:Daniel Dulitz,Alexandre A. Verstak,Sanjay Ghemawat和Jeffrey A. Dean
美國專利:8,868,559
授予:2014年10月21日
送出:2012年8月30日
公開了用于從一組重複文檔中索引代表性文檔的系統和方法。公開的系統和方法包括基于第一文檔與獨立于查詢的得分相關聯來在多個文檔中選擇第一文檔。多個文檔中的每個相應文檔具有指紋,該指紋訓示相應文檔具有與多個文檔中的每個其他文檔基本上相同的内容。公開的系統和方法還包括在獨立于查詢的分數之後對第一文檔進行索引,進而産生索引的第一文檔。關于多個文檔,在文檔索引中僅包括索引的第一文檔。
不管該重複頁面集的主要版本是否被視為第二篇專利中建議的代表性文檔(可能确切地意味着什麼),我認為重要的是要更好地了解文檔的主要版本可能是什麼是。
為什麼将一組重複内容中的一個版本視為主要版本
主要版本專利提供了一些原因,為什麼其中一個可以被視為主要版本:
(1)包含同一文檔的不同版本不會提供其他有用資訊,也不會使使用者受益。
(2)包含同一文檔不同版本的搜尋結果可能會擠出應包含的各種内容。
(3)在搜尋結果中存在文檔的多個不同版本的情況下,使用者可能不知道哪個版本最權威,最完整或最易于通路,是以可能會浪費時間來通路不同版本以進行比較。
這就是該重複内容專利認為從網絡上出現的文檔的不同版本中識别主要版本的理想原因的三個原因。搜尋引擎還希望提供“最合适,最可靠的搜尋結果”。
它是如何工作的?
該專利告訴我們,一種辨別主要版本的方法如下。
可以從幾種不同的來源(例如線上資料庫,網站和圖書館資料系統)中識别文檔的不同版本。
對于每個文檔版本,将基于以下條件選擇權限的優先級:
(1)與文檔版本關聯的中繼資料資訊,例如
來源
獨家出版權
許可權
引用資訊
關鍵詞
網頁排名
類似
(2)第二步,然後使用長度度量确定文檔版本以進行長度限定。具有較高優先級和限定長度的版本被視為文檔的主要版本。
如果兩個文檔版本都不具有較高的優先級和限定的長度,則将根據與每個文檔版本相關的資訊總數來選擇主要版本。
該專利告訴我們,學術作品傾向于按照該專利的程式進行工作:
由于學術文獻的作品必須遵守嚴格的格式要求,是以諸如期刊文章,會議文章,學術論文以及期刊文章,會議文章和學術論文的引用記錄之類的文檔都具有描述文檔内容和來源的中繼資料資訊。結果,學術文獻作品是識别子系統的良好候選者。
在此過程中可能要檢視的中繼資料可能包括以下内容:
作者姓名
标題
發行人
釋出日期
出版地點
文章辨別符,例如數字對象辨別符,PubMed辨別符,SICI,ISBN等
網絡運作(例如URL)
參考計數
引用次數
語言
等等
重複内容專利對确定文檔主要版本的方法進行了更深入的研究:
優先級規則生成一個數值(例如,分數)以反映權威性,完整性或對文檔版本的最佳通路。在一個示例中,優先級規則基于源優先級清單來确定由文檔版本的源配置設定給文檔版本的權限的優先級。源優先級清單包括源清單,每個源具有相應的權限優先級。來源的優先級可以基于編輯選擇,包括考慮外部因素,例如來源的聲譽,來源的出版語料庫大小,更新的頻率或更新頻率,或任何其他因素。是以,每個文檔版本都與權限的優先級關聯;可以在表,樹或其他資料結構中維護此關聯。
該專利包括一個表格,該表格說明了源優先級清單。
該專利還包括一些替代方法。它告訴我們“确定文檔版本是否具有合格優先級的優先級度量可以基于合格優先級值。”
合格的優先級值是根據優先級規則确定文檔版本是權威的,完整的還是易于通路的門檻值。當文檔版本的配置設定優先級大于或等于合格優先級值時,根據優先級規則,該文檔被認為是權威,完整或易于通路的。替代地,合格優先級可以基于相對度量,例如給定一組文檔版本的優先級,僅将最高優先級視為合格優先級。
重複内容帶走
我們無法确定是否像我在本文開頭連結的Dejan SEO文章中所建議的那樣,将主文檔當作所有重複文檔的規範URL一樣對待,但有趣的是, Google可以确定文檔的哪個版本可能是主要版本。我沒有深入了解用于确定原始文檔的量化長度,但是專利确實花了一些時間來解決這個問題。
這是鮮為人知的排名因素嗎?在識别重複内容的主要版本方面,Google專利确實在識别其認為是許多重複文檔中最重要的版本方面顯得有些重要。我不确定大多數網站所有者可以使用這裡的任何内容來幫助他們使他們的頁面在搜尋結果中排名更高,但是很高興看到Google可能對該主題進行了更深入的探讨。