天天看點

釣魚網站相關資料

資料一

位址:https://www.kaggle.com/datasets/aman9d/phishing-data?resource=download

資料集說明:

Domain: The URL itself.

Ranking: Page Ranking

isIp: Is there an IP address in the weblink

valid: This data is fetched from google's whois API that tells us more about the current

status of the URL's registration.

activeDuration: Also from whois API. Gives the duration of the time since the

registration up until now.

urlLen: It is simply the length of the URL

is@: If the link has a '@' character then it's value = 1

isredirect: If the link has double dashes, there is a chance that it is a redirect. 1-> multiple

dashes present together.

haveDash: If there are any dashes in the domain name.

domainLen: The length of just the domain name.

noOfSubdomain: The number of subdomains preset in the URL.

Labels: 0 -> Legitimate website , 1 -> Phishing Link/ Spam Link

資料二

位址:http://shujujishi.com/dataset/04f86672-ed35-483c-99b0-397c8f0f1d79.html

或者

位址:http://sofasofa.io/competition.php?id=10

資料集說明:

訓練集中共有10086條樣本,預測集中有7000條樣本。資料集共有18個變量。注意:變量中含有缺失值。

變量說明:

變量名 解釋

contain_IP 網址中是否包涵ip,比如http://121.99.3.123/fake.html 包含ip。1表示包含,0表示不包含。

is_long 網址字元是否過長。1表示網址過長,0表示網址不長。

is_tinyurl 網址是否是短網址。比如https://bit.ly/2kXX6jV 就是短網址。1表示是短網址,0表示不是。

contain_at 網址是否包含“@”符号。1表示包含,0表示不包含。

contain_double_slash 網址是否包含“//”符号,該符号用來表示網址跳轉。1表示包含,0表示不包含。

contain_dash 網址是否包含“-”符号,該符号經常幫助用來僞裝真網站,比如www.my-taobao.com 。 1表示包含,0表示不包含。

contain_subdomain 網址是否包含子域名,比如www.pku.edu.cn 就包含edu和cn子域名。1表示包含,0表示不包含。

is_SSL 網址是否是https安全連結。1表示包含,0表示不包含。

with_long_history 網址所屬的主域名存在的時間。1表示長久,0表示不長久。

contain_icon 網址網頁是否有小圖示。1表示包含,0表示不包含。

contain_ext_domain 該網頁是否加載其他域名下的附件或者網頁。1表示包含,0表示不包含。

contain_email_to 該網頁是否包含發送郵件的組建。1表示包含,0表示不包含。

allow_right_click 該網頁是否允許使用者進行右擊操作。1表示允許,0表示不允許。

contain_pop_up_windowL 該網頁是否包含彈窗。1表示包含,0表示不包含。

contain_Iframe 該網頁是否包含Iframe(嵌套網頁)。1表示包含,0表示不包含。

has_DNSRecord 網址是否有DNS記錄。1表示有,0表示無。

traffic 該網站的流量大小。1表示大,0表示小。

google_rank 該網址在google搜尋中的排名。1表示高于同類網站的平均排名,0表示低于同類網站的平均排名。

y 表示網站是否是釣魚欺詐網站,1表示是,0表示不是。在test.csv中,這是需要被預測的标簽;預測時,請送出每個樣本為1的機率。

資料三

位址:https://www.datafountain.cn/datasets/5587

資料集說明:

域:URL本身。

排名:頁面排名

isIp:網絡連結中是否有

有效的IP位址:此資料是從Google的Whois API中擷取的,該資訊可以告訴我們有關

URL注冊目前狀态的更多資訊。

activeDuration:同樣來自whois API。提供自

注冊以來到現在為止的時間。

urlLen:隻是URL的長度

is @:如果連結具有’@'字元,則其值= 1

isredirect:如果連結具有雙破折号,則有可能是重定向。1->多個

破折号一起出現。

haveDash:域名中是否包含破折号。

domainLen:域名的長度。

noOfSubdomain:URL中預設的子域數。

标簽:0->合法網站,1->網絡釣魚連結/垃圾郵件連結

資料四

https://github.com/ebubekirbbr/phishing_url_detection/tree/master/dataset/small_dataset

論文及比賽

基于卷積神經網絡的高精度網絡釣魚檢測技術

2017中國網絡安全技術對抗賽

釣魚網站URL識别【機器學習】

釣魚網站檢測 repo複現

基于深度學習模型(1D CNN)實作釣魚網站檢測

DataCon2020優秀解題思路分享:網絡黑産方向(浙江大學matrix戰隊)