用shell腳本收集查詢IP資訊的網站

Curl是Linux下一個很強大的http指令行工具，其功能十分強大。

支援多種協定，包括FTP, FTPS, HTTP, HTTPS, SCP, SFTP, TFTP, TELNET等。

最簡單的用法：

抓取www.cnbeta.com的源碼并顯示

[root@club shell]# curl www.cnbeta.com

本腳本進行過濾提取curl抓取的html源碼中的資訊，将資訊進行處理。

curl支援很多選項，-i：隻檢視http頭部資訊，-o:将擷取的結果儲存在一個檔案中

這裡不全部列出了，更詳細的介紹可以參見此博文：http://blog.51yip.com/linux/1049.html，或者man curl

本腳本功能：

實作收集可以查詢IP的網站，并将網站的域名，IP位址，和實體位址存儲顯示出來。

最終效果：

收集網頁中：

收集結束後：

腳本和注釋：

<code>#使用方式:腳本後面提供一個搜尋引擎關鍵詞，用來搜尋可以查IP的網站，比如 “IP”、“IP查詢” 等關鍵詞</code>

<code>#判斷參數是否為空，為空則提示加參數，然後退出腳本</code>

<code>[ -z $1 ] && </code><code>echo</code> <code>"you must give a keyword"</code> <code>&& </code><code>exit</code> <code>4</code>

<code>clear</code>

<code>#此變量存儲目前檢測第幾個網頁</code>

<code>#此變量存儲搜尋關鍵詞，是腳本傳遞進來的值</code>

<code>KEYWORD=$1</code>

<code>#如果目前目錄存在info.txt則删除這個檔案</code>

<code>echo</code> <code>"擷取本機公網位址中。。。。"</code>

<code>#此循環用來擷取公網位址，如果擷取不到則顯示擷取失敗，并再次進行擷取，如何擷取到則退出循環。</code>

<code>while</code> <code>true</code><code>;</code><code>do</code>

<code>#用curl通路http://ip.chinaz.com頁面，提取出公網IP位址。</code>

<code>MYIPADDR=`curl </code><code>"http://ip.chinaz.com/"</code> <code>2></code><code>/dev/null</code> <code>| </code><code>grep</code> <code>"您的IP:"</code> <code>| </code><code>awk</code> <code>-F </code><code>'strong|>|<'</code> <code>'{print $6}'</code><code>`</code>

<code>if</code> <code>[ -z $MYIPADDR ];</code><code>then</code>

<code> </code><code>echo</code> <code>"擷取公網位址失敗"</code>

<code> </code><code>echo</code> <code>"本機公網位址:$MYIPADDR"</code>

<code> </code><code>break</code>

<code>#先定義此變量，用來存儲目前搜尋頁面的最後一個頁碼</code>

<code>FINPAGE=1</code>

<code>#此變量存儲搜尋頁碼</code>

<code>#目前搜尋頁小于等于目前搜尋頁的最後一個頁碼時，則進入循環。</code>

<code>while</code> <code>[ $PN -</code><code>le</code> <code>$FINPAGE ];</code><code>do</code>

<code> </code><code>#顯示目前第幾個搜尋頁。</code>

<code> </code><code>echo</code> <code>-e </code><code>"\033[34;1m目前第$PN搜尋頁\033[0m\n"</code>

<code> </code><code>#用的是360的搜尋引擎，因為百度的源碼是壓縮過的，提取字元比較困難。www.so.com/s?q=$KEYWORD&pn=$PN 這個url中，q=後面是搜尋詞，pn=後面是搜尋結果的頁碼。分析一下360的搜尋頁就能看出。</code>

<code> </code><code>#用grep和awk提取出目前頁面的最後一個頁碼。</code>

<code> </code><code>FINPAGE=`curl </code><code>"www.so.com/s?q=$KEYWORD&pn=$PN&j=0"</code> <code>2></code><code>/dev/null</code> <code>| </code><code>grep</code> <code>'<strong>'</code> <code>| </code><code>awk</code> <code>-F </code><code>'<strong>|</strong>'</code> <code>'{print $2}'</code><code>`</code>

<code> </code><code>echo</code> <code>"周遊目前搜尋頁可能頁面的位址。。。"</code>

<code> </code><code>#提取出目前搜尋頁結果的所有網頁位址。儲存在WEBLIST變量中。</code>

<code> </code><code>WEBLIST=`curl </code><code>"http://www.so.com/s?q=$KEYWORD&pn=$PN&j=0"</code> <code>2></code><code>/dev/null</code> <code>| </code><code>grep</code> <code>"</h3>"</code> <code>| </code><code>awk</code> <code>-F </code><code>'href='</code> <code>'{print $2}'</code> <code>| </code><code>cut</code> <code>-d </code><code>'"'</code> <code>-f2`</code>

<code> </code><code>echo</code> <code>-e </code><code>"周遊完成。。。開始篩選符合條件的網頁。。。\n"</code>

<code> </code><code>#周遊目前搜尋頁的每個網頁，分析網頁中的内容。</code>

<code> </code><code>for</code> <code>i </code><code>in</code> <code>`</code><code>echo</code> <code>$WEBLIST`; </code><code>do</code>

<code> </code><code>#列印相關資訊。</code>

<code> </code><code>echo</code> <code>-e </code><code>"目前檢測第\033[33;1m$STEP\033[0m個網頁,目前搜尋頁一共有`echo -e $WEBLIST | awk '{print NF}'`個網頁"</code>

<code> </code><code>#用curl抓取目前網頁的内容，比對一下自己的公網位址。</code>

<code> </code><code>curl -m 5 $i 2></code><code>/dev/null</code> <code>| </code><code>grep</code> <code>$MYIPADDR > </code><code>/dev/null</code>

<code> </code><code>#如果比對到，說明此網站可以查詢IP位址資訊。</code>

<code> </code><code>echo</code> <code>-e </code><code>"\033[32;1m$i 符合，此網站可以查詢IP資訊\033[0m"</code>

<code> </code><code>#提取目前網頁的域名，儲存在DONAME變量中。</code>

<code> </code><code>DONAME=`</code><code>echo</code> <code>"$i"</code> <code>|</code><code>sed</code> <code>'s#^http://$.*$/*$#\1#g'</code> <code>|</code><code>cut</code> <code>-d/ -f1`</code>

<code> </code><code>#用ping指令去解析此域名本地dns解析出來的IP位址，也就是這個可以查詢IP位址資訊網站的IP位址，儲存在WEBIPADDR變量中</code>

<code> </code><code>WEBIPADDR=`</code><code>ping</code> <code>-c 1 -w 1 $DONAME |</code><code>cut</code> <code>-d/ -f1 | </code><code>head</code> <code>-1 | </code><code>awk</code> <code>-F </code><code>'('</code> <code>'{print $2}'</code> <code>|</code><code>cut</code> <code>-d</code><code>')'</code> <code>-f1`</code>

<code> </code><code>#用curl在http://ip.chinaz.com上解析出此網站IP的實體位址。儲存在PHYADD變量中。</code>

<code> </code><code>PHYADD=`curl </code><code>"http://ip.chinaz.com/?IP=$WEBIPADDR"</code> <code>2></code><code>/dev/null</code> <code>| </code><code>grep</code> <code>-A 1 </code><code>'<span id="status" class="info1">'</code> <code>| </code><code>tail</code> <code>-1 | </code><code>awk</code> <code>-F </code><code>'==>>'</code> <code>'{print $NF}'</code> <code>| </code><code>cut</code> <code>-d </code><code>'<'</code> <code>-f1`</code>

<code> </code><code>#将相關資訊儲存在info.txt中</code>

<code> </code><code>echo</code> <code>-e </code><code>"$DONAME\t\t\t--\t\t\t$WEBIPADDR\t\t--\t\t$PHYADD"</code> <code>>> info.txt</code>

<code> </code><code>echo</code> <code>-e </code><code>"\033[31;1m$i 此網站pass\033[0m"</code>

<code> </code><code>let</code> <code>FINPAGE+=1</code>

<code>#将最後的結果進行去重，儲存在result中。</code>

<code>cat</code> <code>info.txt | </code><code>sort</code> <code>| </code><code>uniq</code> <code>> result.txt</code>

<code>#顯示出結果。</code>

<code>echo</code> <code>-e </code><code>"\n\n結果顯示：--------------------"</code>

<code>cat</code> <code>result.txt</code>

本文轉自lustlost 51CTO部落格，原文連結：http://blog.51cto.com/lustlost/1209349，如需轉載請自行聯系原作者

用shell腳本收集查詢IP資訊的網站

繼續閱讀

在目前位置打開指令行視窗的技巧

unit 1 - redhat Enterprise 8.0 Linux 指令行使用技巧

Windows指令行中使用SSH連接配接Linux

Linux下指令行中的複制和粘貼

1.Linux指令行使用技巧

spec檔案詳解

BMP檔案結構及圖像每行位元組計算方法

磁盤結構及在Linux中的命名

HK-2000資料采集儀資料庫操作說明

終端環境之tmux

查找檔案中的字元串

拒絕使用者登入:/bin/false和/usr/sbin/nologin

Shell程式設計——sort排序、uniq忽略重複、tr替換壓縮删除、cut指定删除字段、正規表達式元字元sort 指令uniq 指令tr 指令cut 指令正規表達式

Linxu常用指令技巧彙總

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

ACS基本配置-權限等級管理