HTML
1、識别編碼-減少亂碼
2、ISO 10464-四位元組,是以類型的字元
3、UTF-8-實作unicode,包含使用1個位元組或3個位元組來顯示字元,中文使用三個位元組
4、漢字編碼
- GB2312-國标簡體漢字6763-2位元組
- BIG5-國标繁體漢字13053
- GBK-簡繁字集21003
- GB18030-大一統字元集
5、識别編碼
- content-type 如果是GB2312應該當做GBK處理
- 識别Meta标簽
- 分析傳回流的二進制格式
- 如果網頁是gb2312,應該設定輸入流的編碼為GBK
- JuniversalCharDet 根據讀入的位元組流自動猜測頁面或檔案使用的字元集
- 去掉導航欄、底部的公司介紹、form/select/iframe/input/style等-敏感詞監測爬蟲不應該去掉
- 連結文字比率:連結數除以文字數
- 從HTML編碼字元串檢測重複的模式
- 最長公共子序列
- 樹編輯距離