天天看點

實作搜尋引擎之建立html文檔索引

HTML

1、識别編碼-減少亂碼

2、ISO 10464-四位元組,是以類型的字元

3、UTF-8-實作unicode,包含使用1個位元組或3個位元組來顯示字元,中文使用三個位元組

4、漢字編碼

  • GB2312-國标簡體漢字6763-2位元組
  • BIG5-國标繁體漢字13053
  • GBK-簡繁字集21003
  • GB18030-大一統字元集

5、識别編碼

  • content-type 如果是GB2312應該當做GBK處理
  • 識别Meta标簽
  • 分析傳回流的二進制格式
  • 如果網頁是gb2312,應該設定輸入流的編碼為GBK
  • JuniversalCharDet 根據讀入的位元組流自動猜測頁面或檔案使用的字元集
  • 去掉導航欄、底部的公司介紹、form/select/iframe/input/style等-敏感詞監測爬蟲不應該去掉
  • 連結文字比率:連結數除以文字數
  • 從HTML編碼字元串檢測重複的模式
  • 最長公共子序列
  • 樹編輯距離