天天看點

辛星淺析網站中的sitemap

      所謂sitemap,通俗來說就是"網站地圖",sitemap檔案主要包含了網站中的有效連接配接,它會便于搜尋引擎的抓取和收錄,如果沒有sitemap檔案,蜘蛛就需要一個一個的通過我們網站中的超連結來進行抓取。有了sitemap之後,搜尋引擎直接讀取該檔案就可以了,它可以讓搜尋引擎抓取我們的網頁更加有效。

      最通用的也是最簡單的sitemap形式的檔案,就是xml檔案,我們在其中列出網站中的網址,以及關于每個網址的一些中繼資料。這些中繼資料通常是上次更新的時間、更新的頻率、重要程度等等,它可以讓搜尋引擎的抓取更加智能。一般來說,百度sitemap支援三種格式:txt文本格式、xml格式、sitemap索引格式。

     下面是www.sitemaps.org官方的定義,它引用自http://www.sitemaps.org/zh_CN/,具體内容為:

Sitemap 可友善管理者通知搜尋引擎他們網站上有哪些可供抓取的網頁。最簡單的 Sitepmap 形式,就是 XML 檔案,在其中列出網站中的網址以及關于每個網址的其他中繼資料(上次更新的時間、更改的頻率以及相對于網站上其他網址的重要程度為何等),以便搜尋引擎可以更加智能地抓取網站。
網絡抓取工具通常會通過網站内部和其他網站上的連結查找網頁。Sitemap 會提供此資料以便允許支援 Sitemap 的抓取工具抓取 Sitemap 提供的所有網址,并了解使用相關中繼資料的網址。使用 Sitemap 協定并不能保證網頁會包含在搜尋引擎中,但可向網絡抓取工具提供一些提示以便它們更有效地抓取網站。
Sitemap 0.90 是依據創意公用授權-相同方式共享 (Attribution-ShareAlike Creative Commons License) 的條款提供的,并被廣泛采用,受 Google、Yahoo! 和 Microsoft 在内的衆多廠商的支援。
           

      而我們寫sitemap.xml的時候一般遵循如下格式就可以了:

<?xml version=”1.0” encoding=”UTF-8”?>

<urlset xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9”>

<url>

<loc>http://www.xinxingjiaocheng.com/</loc>

<lastmod>2015-06-01</lastmod>

<changefreq>monthly</changefreq>

<prority>1.0</prority>

</url>

..其他url清單

</urlset>
           

  這裡需要說一下的就是,其中幾個标簽的含義:

   (1)changefreq:頁面内容更新頻率

   (2)lastmod:頁面最後修改時間

   (3)loc:頁面永久連結位址

   (4)priority:相對于其他頁面的優先權

   (5)url:前面四個标簽的父标簽

   (6)urlset:前面五個标簽的父标簽

    需要注意的兩點就是:

   (1)而xmlns則是定義了此xml的命名空間,相當于網頁檔案中的<html>标簽一樣的作用。

   (2)還有就是loc标簽對中的特殊字元必須進行轉義,比如大于号變成&gt;這種形式。

    對于lastmod的說明:

    (1)對于lastmod就是最後更新時間

    (2)一般機器人在索引此連結之前,它會首先和上次索引記錄的最後更新時間進行比較

    (3)如果時間一樣就會跳過不再索引

    (4)如果我們的連結内容基于上次索引時的内容發生了改變,那麼這個值也應該相應更新。

    (5)對于這個時間表述,我們使用ISO  8601中指定的時間格式進行描述即可.

    (6)最全的時間格式為:  YYYY-MM-DDThh:mmTZD    比如 2015-06-01T19:02:00+08:00

    (7)這裡的TZD指的是本地時間區域标記, 比如東八區的話,我們一般用+08:00來表示

     對于changefreq來說,我們一般需要:

    (1)對于網站首頁,我們一般使用always,來表示"經常"

    (2)對于很久之前的連結,我們可以用yearly,來表示"每年"

    (3)其他常用的時間标記為:always、hourly、daily、weekly、monthly、yearly

     對于priority,我們說明如下:

     (1)它是指定了此連結相對于其他連結的優先權比值

     (2)這個值介于0.0到1.0之間,值越高,權重越高

     下面是星哥對sitemap的幾個小建議:

     (1)一般來說,對于較大的網站來說,可以把sitemap分拆為若幹個sitemap

     (2)每個sitemap最多不能超過五萬個url,而且壓縮之前不得大于10MB

     (3)sitemap可以壓縮,這裡推薦使用gzip壓縮,可以節約流量

     (4)可以在robots.txt中的最後添加一行來指定sitemap的位置,範例:  Sitemap:   http://www.a.com/sitemap.xml

     不過對于sitemap是否有用這個問題,經過我的測試,得到的結果是:不一定有用。因為各大搜尋引擎都具有比較強的抓取頁面的能力,隻要我們的内鍊做的沒有緻命問題,那麼收錄一般都是沒問題的。還有就是對于網站層次結構複雜的時候,而且網站内容更新頻繁的時候,那麼這個sitemap的變更會非常頻繁,是以個人感覺它的效果并不大。

繼續閱讀