反垃圾郵件技術解析

1 概述 3

1.1 什麼是垃圾郵件？ 3

1.2 安全問題 4

2 反垃圾郵件技術 4

2.1 過濾 5

2.1.1 關鍵詞過濾 5

2.1.2 黑白名單 5

2.1.3 HASH技術 6

2.1.4 基于規則的過濾 6

2.1.5 智能和機率系統 6

2.1.6 局限性和缺點 8

2.2 驗證查詢 9

2.2.1 反向查詢技術 10

2.2.2 DKIM技術 11

2.2.3 SenderID技術 12

2.2.4 FairUCE技術 13

2.2.5 局限性和缺點 14

2.3 挑戰 14

2.3.1 挑戰-響應 15

2.3.2 計算性挑戰 16

2.4 密碼術 17

3 總結 18

4 參考 19

1、概述

電子郵件是最常用的網絡應用之一，已經成為網絡交流溝通的重要途徑。但是，垃圾郵件（spam）煩惱着大多數人，近來的調查顯示，93%的被調查者都對他們接收到的大量垃圾郵件非常不滿。一些簡單的垃圾郵件事件也造成了很有影響的安全問題。日益增加的垃圾郵件現在會造成1年94億美元的損失（來自chinabyte上一則新聞的資料），在一些文章表明，垃圾郵件可能會花費一個公司内每個使用者600到1000美元。

垃圾郵件随着網際網路的不斷發展而大量增長，不再像以前一樣，隻是小小的一個騷擾，現在的垃圾郵件可以說是鋪天蓋地了。最初，垃圾郵件主要是一些不請自來的商業宣傳電子郵件，而現在更多的有關色情、政治的垃圾郵件不斷增加，甚至達到了總垃圾郵件量的40%左右，并且仍然有持續增長的趨勢。另一方面，垃圾郵件成了計算機病毒新的、快速的傳播途徑。

而且目前世界上50%的郵件都是垃圾郵件，隻有少數組織承擔責任。很多反垃圾郵件的措施都被提出出來，但是隻有非常少的被實施了。不幸的是，這些解決辦法也都還不能完全阻止垃圾郵件，而且還對正常的郵件來往産生影響。

1.1、什麼是垃圾郵件？

某種程度上，對垃圾郵件的定義可以是：那些人們沒有意願去接收到的電子郵件都是垃圾郵件。比如：

*商業廣告。很多公司為了宣傳新的産品、新的活動等通過電子郵件的方式進行宣傳。

*政治言論。目前會收到不少來自其他國家或者反動組織發送的這類電子郵件，這就跟垃圾的商業廣告一樣，銷售和販賣他們的所謂言論。

*蠕蟲病毒郵件。越來越多的病毒通過電子郵件來迅速傳播，這也的确是一條迅速而且有效的傳播途徑。

*惡意郵件。恐吓、欺騙性郵件。比如phishing，這是一種假冒網頁的電子郵件，完全是一種詭計，來蒙騙使用者的個人資訊、賬号甚至信用卡。

普通個人的電子郵箱怎麼成為了垃圾郵件的目标呢，造成這樣的結果有很多原因，比如在網站、論壇等地方注冊了郵件位址，病毒等在朋友的郵箱中找到了你的電子郵箱，對郵件提供商進行的使用者枚舉，等等。通常情況下，越少暴露電子郵件位址越少接收到垃圾郵件，使用時間越短越少接收到垃圾郵件。一些無奈的使用者就選擇了放棄自己的郵箱而更換新的電子郵箱。

1.2、安全問題

垃圾郵件給網際網路以及廣大的使用者帶來了很大的影響，這種影響不僅僅是人們需要花費時間來處理垃圾郵件、占用系統資源等，同時也帶來了很多的安全問題。

垃圾郵件占用了大量網絡資源，這是顯而易見的。一些郵件伺服器因為安全性差，被作為垃圾郵件轉發站為被警告、封IP等事件時有發生，大量消耗的網絡資源使得正常的業務運作變得緩慢。随着國際上反垃圾郵件的發展，組織間黑名單共享，使得無辜伺服器被更大範圍屏蔽，這無疑會給正常使用者的使用造成嚴重問題。

垃圾郵件和黑客攻擊、病毒等結合也越來越密切，比如，SoBig蠕蟲就安裝開放的，可以用來支援郵件轉發的代理。随着垃圾郵件的演變，用惡意代碼或者監視軟體等來支援垃圾郵件已經明顯地增加了。2003年12月31，巴西的一個黑客組織發送包含惡意javascript腳本的垃圾郵件給數百萬使用者，那些通過Hotmail來浏覽這些垃圾郵件的人們在不知不覺中已經洩露了他們的賬号。另外一個例子就是，近來IE的URL顯示問題，在主機名前添加"%01"可以隐藏真實的主機位址，在被釋出之後幾個星期内就出現在垃圾郵件中了。

越來越具有欺騙性的病毒郵件，讓很多企業深受其害，即便采取了很好的網絡保護政策，依然很難避免，越來越多的安全事件都是因為郵件産生的，可能是病毒、木馬或者其他惡意程式。Phishing的假冒詭計對于普通使用者來說，的确很難作出正确的判斷，但是造成的損失卻是很直接的。

2、反垃圾郵件技術

已經存在的和在被提及的反垃圾郵件方法試圖來減少垃圾郵件問題和處理安全需求。通過正确的識别垃圾郵件，郵件病毒或者郵件攻擊程式等都會減少。這些解決方法采取多種安全途徑來努力阻止垃圾郵件。

Dr. Neal Krawetz在Anti-Spam Solutions and Security[ref 1]文中将反垃圾郵件技術作了非常好的分類。目前的反垃圾郵件技術可以分為4大類：過濾器（Filter）、反向查詢(Reverse lookup)、挑戰(challenges)和密碼術(cryptography),這些解決辦法都可以減少垃圾郵件問題，但是都有它們的局限性。本文将在下面的内容讨論這些技術以及一些主要技術的實作。

2.1、過濾

過濾（Filter）是一種相對來說最簡單卻很直接的處理垃圾郵件技術。這種技術主要用于接收系統（MUA，如OUTLOOK EXPRESS或者MTA，如sendmail）來辨識和處理垃圾郵件。從應用情況來看，這種技術也是使用最廣泛的，比如很多郵件伺服器上的反垃圾郵件插件、反垃圾郵件網關、用戶端上的反垃圾郵件功能等，都是采用的過濾技術。

2.1.1、關鍵詞過濾

關鍵詞過濾技術通常建立一些簡單或複雜的與垃圾郵件關聯的單詞表來識别和處理垃圾郵件。比如某些關鍵詞大量出現在垃圾郵件中，如一些病毒的郵件标題，比如：test。這種方式比較類似反病毒軟體利用的病毒特征一樣。可以說這是一種簡單的内容過濾方式來處理垃圾郵件，它的基礎是必須建立一個龐大的過濾關鍵詞清單。

這種技術缺陷很明顯，過濾的能力同關鍵詞有明顯聯系，關鍵詞清單也會造成錯報可能比較大，當然系統采用這種技術來處理郵件的時候消耗的系統資源會比較多。并且，一般躲避關鍵詞的技術比如拆詞，組詞就很容易繞過過濾。

2.1.2、黑白名單

黑名單（Black List）和白名單（White List）。分别是已知的垃圾郵件發送者或可信任的發送者IP位址或者郵件位址。現在有很多組織都在做*bl（block list），将那些經常發送垃圾郵件的IP位址（甚至IP位址範圍）收集在一起，做成block list，比如spamhaus的SBL（Spamhaus Block List），一個BL，可以在很大範圍内共享。許多ISP正在采用一些組織的BL來阻止接收垃圾郵件。白名單則與黑名單相反，對于那些信任的郵件位址或者IP就完全接受了。

目前很多郵件接收端都采用了黑白名單的方式來處理垃圾郵件，包括MUA和MTA，當然在MTA中使用得更廣泛，這樣可以有效地減少伺服器的負擔。

BL技術也有明顯的缺陷，因為不能在block list中包含所有的（即便是大量）的IP位址，而且垃圾郵件發送者很容易通過不同的IP位址來制造垃圾。

2.1.3 HASH技術

HASH技術是郵件系統通過建立HASH來描述郵件内容，比如将郵件的内容、發件人等作為參數，最後計算得出這個郵件的HASH來描述這個郵件。如果HASH相同，那麼說明郵件内容、發件人等相同。這在一些ISP上在采用，如果出現重複的HASH值，那麼就可以懷疑是大批量發送郵件了。

2.1.4 基于規則的過濾

這種過濾根據某些特征（比如單詞、詞組、位置、大小、附件等）來形成規則，通過這些規則來描述垃圾郵件，就好比IDS中描述一條入侵事件一樣。要使得過濾器有效，就意味着管理人員要維護一個龐大的規則庫。

2.1.5 智能和機率系統

廣泛使用的就是貝葉斯(Bayesian)算法，可以學習單詞的頻率和模式，這樣可以同垃圾郵件和正常郵件關聯起來進行判斷。這是一種相對于關鍵字來說，更複雜和更智能化的内容過濾技術。我将在下面較長的描述這種在用戶端和伺服器中使用最廣泛的技術。

2.1.5.1 Bayesian 貝葉斯算法

在過濾器中，現在表現最好的應該是基于評分(score)的過濾器，因為我們很容易就可以明白對付狡猾的垃圾郵件，那些黑白名單、關鍵詞庫或者HASH等過濾器是多麼的簡單。評分系統過濾器是一種最基本的算法過濾器，也是貝葉斯算法的基本雛形。它的原理就是檢查垃圾郵件中的詞或字元等，将每個特征元素（最簡單的元素就是單詞，複雜點的元素就是短語）都給出一個分數（正分數），另一方面就是檢查正常郵件的特征元素，用來降低得分的（負分數）。最後郵件整體就得到一個垃圾郵件總分，通過這個分數來判斷是否spam。

這種評分過濾器盡量實作了自動識别垃圾郵件的功能，但是依然存在一些不适應的問題：

*特征元素清單通過垃圾郵件或者正常郵件獲得。是以，要提高識别垃圾郵件的效果，就要從數百郵件中來學習，這降低了過濾器效率，因為對于不同人來說，正常郵件的特征元素是不一樣的。

*獲得特征元素分析的郵件數量多少是一個關鍵。如果垃圾郵件發送者也适應了這些特征，就可能讓垃圾郵件更象正常郵件。這樣的話，過濾特征就要更改了。

*每個詞計算的分數應該基于一種很好的評價，但是還是有随意性。比如，特征就可能不會适應垃圾郵件的單詞變化，也不會适應某個使用者的需要。

貝葉斯理論現在在計算機行業中應用相當廣泛，這是一種對事物的不确定性描述，比如google計算中就采用了貝葉斯理論。貝葉斯算法的過濾器就是計算郵件内容中成為垃圾郵件的機率，它要首先從許多垃圾郵件和正常郵件中進行學習，是以，效果将比普通的内容過濾器更優秀，錯報就會更少。貝葉斯過濾器也是一種基于評分的過濾器。但不僅僅是一種簡單的計算分數，而更從根本上來識别。它采用自動建立特征表的方式，原理上，首先分析大量的垃圾郵件和大量的正常郵件，算法分析郵件中多種特征出現機率。

貝葉斯算法計算特征的來源通常是：

·郵件正文中的單詞

·郵件頭（發送者、傳遞路徑等）

·其他表現，比如HTML編碼（如顔色等）

·詞組、短語

·meta資訊，比如特殊短語出現位置等

比如，正常郵件中經常出現單詞AAA，但是基本不在垃圾郵件中出現，那麼，AAA标示垃圾郵件的機率就接近0，反之則然。

貝葉斯算法的步驟為：

1. 收集大量的垃圾郵件和非垃圾郵件，建立垃圾郵件集和非垃圾郵件集。

2. 提取特征來源中的獨立字元串，例如 AAA等作為TOKEN串并統計提取出的TOKEN串出現的次數即字頻。按照上述的方法分别處理垃圾郵件集和非垃圾郵件集中的所有郵件。

3. 每一個郵件集對應一個哈希表，hashtable_good對應非垃圾郵件集而hashtable_bad對應垃圾郵件集。表中存儲TOKEN串到字頻的映射關系。

4. 計算每個哈希表中TOKEN串出現的機率P=(某TOKEN串的字頻)/(對應哈希表的長度)

5. 綜合考慮hashtable_good和hashtable_bad，推斷出當新來的郵件中出現某個TOKEN串時，該新郵件為垃圾郵件的機率。數學表達式為：

　　A 事件 ---- 郵件為垃圾郵件；

　　t1,t2 …….tn 代表 TOKEN 串

　　則 P(A|ti)表示在郵件中出現 TOKEN 串 ti 時，該郵件為垃圾郵件的機率。設

　　P1(ti)=ti 在 hashtable_good 中的值

　　P2(ti)=ti 在 hashtable_ bad 中的值

　　則 P(A|ti)=P2(ti)/[(P1(ti)+P2(ti)] ；

6. 建立新的哈希表hashtable_probability存儲TOKEN串ti到P(A|ti)的映射

7.根據建立的哈希表 hashtable_probability可以估計一封新到的郵件為垃圾郵件的可能性。

當新到一封郵件時，按照步驟2，生成TOKEN串。查詢hashtable_probability得到該TOKEN 串的鍵值。假設由該郵件共得到N個TOKEN 串，t1,t2…….tn,hashtable_probability中對應的值為 P1 ，P2 ，……PN ，P(A|t1 ,t2, t3……tn) 表示在郵件中同時出現多個TOKEN串t1,t2……tn時，該郵件為垃圾郵件的機率。

由複合機率公式可得:

P(A|t1 ,t2, t3……tn)=（P1*P2*……PN）/[P1*P2*……PN+（1-P1）*（1-P2）*……（1-PN）]

當 P(A|t1 ,t2, t3……tn) 超過預定門檻值時，就可以判斷郵件為垃圾郵件。

當新郵件到達的時候，就通過貝葉斯過濾器分析，通過使用各個特征來計算郵件是spam的機率。通過不斷的分析，過濾器也不斷地獲得自更新。比如，通過各種特征判斷一個包含單詞AAA的郵件是spam，那麼單詞AAA成為垃圾郵件特征的機率就增加了。

這樣，貝葉斯過濾器就有了自适應能力，既能自動進行，也可以使用者手工操作，也就更能适應單個使用者的使用。而垃圾郵件發送者要獲得這樣的适應能力就很難了，是以，更難逃避過濾器的過濾，但他們當然還是能夠将郵件僞裝成很普遍的正常郵件的樣子。除非垃圾郵件發送者能去對某個人的過濾器進行判斷，比如，采用發送回執的辦法來了解哪些郵件被使用者打開了等，這樣他們就可以适應過濾器了。

雖然貝葉斯過濾器還存在有評分過濾器的缺陷，但是它更優化了。實踐也證明，貝葉斯過濾器在用戶端和伺服器中效果是非常明顯的，優秀的貝葉斯過濾器能夠識别超過99.9%的垃圾郵件。大多數目前應用的反垃圾郵件産品都采用了這樣的技術。比如Foxmail中的貝葉斯過濾。

2.1.6 局限性和缺點

現行的很多采用過濾器技術的反垃圾郵件産品通常都采用了多種過濾器技術，以便使産品更為有效。過濾器通過他們的誤報和漏報來分等級。漏報就是指垃圾郵件繞過了過濾器的過濾。而誤報則是将正常的郵件判斷為了垃圾郵件。完美的過濾器系統應該是不存在漏報和誤報的，但是這是理想情況。

一些基于過濾器原理的反垃圾郵件系統通常有下面的三種局限性：

·可能被繞過。垃圾郵件發送者和他們用的發送工具也不是靜态的，他們也會很快适應過濾器。比如，針對關鍵字清單，他們可以随機更改一些單詞的拼寫，比如("強悍", "弓雖悍", "強-悍").Hash-buster（在每個郵件中産生不同的HASH）就是來繞過hash過濾器的。目前普遍使用的貝葉斯過濾器可以通過插入随機單詞或句子來繞過。多數過濾器都最多隻能在少數幾周才最有效，為了保持反垃圾郵件系統的實用性，過濾器規則就必須不斷更新，比如每天或者每周更新。

·誤報問題。最頭痛的問題就是将正常郵件判斷為垃圾郵件。比如，一封包含單詞sample的正常郵件可能是以被判斷為垃圾郵件。某些正常伺服器不幸包含在不負責任的組織釋出的block list對某個網段進行屏蔽中，而不是因為發送了垃圾郵件（xfocus的伺服器就是這樣的一個例子）。但是，如果要減少誤報問題，就可能造成嚴重的漏報問題了。

·過濾器複查。由于誤報問題的存在，通常被标記為垃圾郵件的消息一般不會被立刻删除，而是被放置到垃圾郵件箱裡面，以便日後檢查。不幸的是，這也意味着使用者仍然必須花費時間去察看垃圾郵件，即便僅僅隻針對郵件标題。

目前更嚴重的問題是，人們依然認為過濾器能有效阻止垃圾郵件。實際上，垃圾郵件過濾器并不能有效阻止垃圾郵件，在多數案例中，垃圾郵件依然存在，依然穿過了網絡，并且依然被傳播。除非使用者不介意存在被誤報的郵件，不介意依然會浏覽垃圾郵件。過濾器可以幫助我們來組織并分隔郵件為垃圾郵件和正常郵件，但是過濾器技術并不能阻止垃圾郵件，實際上隻是在"處理"垃圾郵件。

盡管過濾器技術存在局限，但是，這是目前最為廣泛使用的反垃圾郵件技術。

2.2、驗證查詢

SMTP在設計的時候并沒有考慮到安全問題。在1973年，計算機安全還沒有什麼意義，那個時候能夠有一個可執行的郵件協定已經很了不起了。比如，RFC524描述将SMTP作為獨立協定的一些情況：

"雖然人們可以或者可能可以，以本文檔為基礎設計軟體，但請恰如其分地進行批注。請提出建議和問題。我堅信協定中依然存在問題，我希望讀者能夠閱讀RFC的時候能夠将它們都指出來。"

盡管SMTP的指令組已經發展了很長時間，但是人們還是以RFC524為基礎來執行SMTP的，而且還都假定問題（比如安全問題）都會在以後被解決。是以直到2004年，源自RFC524中的錯誤還是依然存在，這個時候SMTP已經變得非常廣泛而很難簡單被代替。垃圾郵件就是一個濫用SMTP協定的例子，多數垃圾郵件工具都可以僞造郵件頭，僞造發送者，或者隐藏源頭。

垃圾郵件一般都是使用的僞造的發送者位址，極少數的垃圾郵件才會用真實位址。垃圾郵件發送者僞造郵件有下面的幾個原因：

*因為是違法的。在多個國家内，發送垃圾郵件都是違法行為，通過僞造發送位址，發送者就可能避免被起訴。

*因為不受歡迎。垃圾郵件發送者都明白垃圾郵件是不受歡迎的。通過僞造發送者位址，就可能減少這種反應。

*受到ISP的限制。多數ISP都有防止垃圾郵件的服務條款，通過僞造發送者位址，他們可以減少被ISP禁止網絡通路的可能性。

是以，如果我們能夠采用類似黑白名單一樣，能夠更智能地識别哪些是僞造的郵件，哪些是合法的郵件，那麼就能從很大程度上解決垃圾郵件問題，驗證查詢技術正是基于這樣的出發點而産生的。以下還會解析一些主要的反垃圾郵件技術，比如Yahoo!、微軟、IBM等所倡導和主持的反垃圾郵件技術，把它們劃分在反向驗證查詢技術中并不是很恰當，但是，從某種角度來說，這些技術都是更複雜的驗證查詢。

2.2.1、反向查詢技術

從垃圾郵件的僞造角度來說，能夠解決郵件的僞造問題，就可以避免大量垃圾郵件的産生。為了限制僞造發送者位址，一些系統要求驗證發送者郵件位址，這些系統包括：

反向郵件交換（RMX）< http://www.ietf.org/internet-drafts/draft-danisch-dns-rr-smtp-03.txt>

發送者許可（SPF）< http://spf.pobox.com/>

标明郵件協定（DMP）< http://www.pan-am.ca/dmp/>

這些技術都比較相近。DNS是全球網際網路服務來處理IP位址和域名之間的轉化。在1986年，DNS擴充，并有了郵件交換紀錄（MX），當發送郵件的時候，郵件伺服器通過查詢MX紀錄來對應接收者的域名。

類似于MX紀錄，反向查詢解決方案就是定義反向的MX紀錄（"RMX"--RMX，"SPF"--SPF，"DMP"--DMP），用來判斷是否郵件的指定域名和IP位址是完全對應的。基本原因就是僞造郵件的位址是不會真實來自RMX位址，是以可以判斷是否僞造。

2.2.2 DKIM技術

DKIM（DomainKeys Identified Mail）技術基于雅虎的DomainKeys驗證技術和思科的Internet Identified Mail。

雅虎的DomainKeys利用公共密鑰密碼術驗證電子郵件發件人。發送系統生成一個簽名并把簽名插入電子郵件标題，而接收系統利用DNS釋出的一個公共密鑰驗證這個簽名。思科的驗證技術也利用密碼術，但它把簽名和電子郵件消息本身關聯。發送伺服器為電子郵件消息簽名并把簽名和用于生成簽名的公共密鑰插入一個新标題。而接收系統驗證這個用于為電子郵件消息簽名的公共密鑰是授權給這個發件位址使用的。

DKIM将把這兩個驗證系統整合起來。它将以和DomainKeys相同的方式用DNS釋出的公共密鑰驗證簽名，它也将利用思科的标題簽名技術確定一緻性。

DKIM給郵件提供一種機制來同時驗證每個域郵件發送者和消息的完整性。一旦域能被驗證，就用來同郵件中的發送者位址作比較檢測僞造。如果是僞造，那麼可能是spam或者是欺騙郵件，就可以被丢棄。如果不是僞造的，并且域是已知的，可為其建立起良好的聲譽，并綁定到反垃圾郵件政策系統中，也可以在服務提供商之間共享，甚至直接提供給使用者。

對于知名公司來說，通常需要發送各種業務郵件給客戶、銀行等，這樣，郵件的确認就顯得很重要。可以保護避免受到phishing攻擊。

現在，DKIM技術标準送出給IETF，可以參考draft文檔 http://www.ietf.org/internet-drafts/draft-delany-domainkeys-base-00.txt

DomainKeys的實作過程

發送伺服器經過兩步：

1、建立。域所有者需要産生一對公/私鑰用于标記所有發出的郵件（允許多對密鑰），公鑰在DNS中公開，私鑰在使用DomainKey的郵件伺服器上。

2、簽名。當每個使用者發送郵件的時候，郵件系統自動使用存儲的私鑰來産生簽名。簽名作為郵件頭的一部分，然後郵件被傳遞到接收伺服器上。

接收伺服器通過三步來驗證簽名郵件：

1、準備。接收伺服器從郵件頭提取出簽名和發送域（From:）然後從DNS獲得相應的公鑰。

2、驗證。接收伺服器用從DNS獲得的公鑰來驗證用私鑰産生的簽名。這保證郵件真實發送并且沒有被修改過。

3、傳遞。接收伺服器使用本地政策來作出最後結果，如果域被驗證了，而且其他的反垃圾郵件測試也沒有決定，那麼郵件就被傳遞到使用者的收件箱中，否則，郵件可以被抛棄、隔離等。

2.2.3、SenderID技術

2004年，Gates曾信誓旦旦地預言微軟能夠在未來消滅垃圾郵件，他所期望的就是Sender ID技術，但是，最近他則收回了他的預言。這也就是标準之争，微軟希望IETF能夠采用Sender ID技術作為标準，并且得到了大量支援，比如Cisco, Comcast, IBM, Cisco,Port25,Sendmail,Symantec,VeriSign等，也包括後來又倒戈的AOL的支援，但是在開源社群，微軟一直沒有得到足夠的支援，IETF最終否決了微軟的提議。

SenderID技術主要包括兩個方面：發送郵件方的支援和接收郵件方的支援。其中發送郵件方的支援主要有三個部分：發信人需要修改郵件伺服器的DNS，增加特定的SPF記錄以表明其發信身份，比如"v=spf1 ip4:192.0.2.0/24 -all"，表示使用SPF1版本，對于192.0.2.0/24這個網段是有效的；在可選情況下，發信人的MTA支援在其外發郵件的發信通信協定中增加SUBMITTER等擴充，并在其郵件中增加Resent-Sender、Resent-From、Sender等信頭。

接收郵件方的支援有：收信人的郵件伺服器必須采用SenderID檢查技術，對收到的郵件檢查PRA或MAILFROM，查詢發件者DNS的SPF紀錄，并以此驗證發件者身份。

是以，采用Sender ID技術，其整個過程為：

第一步，發件人撰寫郵件并發送；

第二步，郵件轉移到接收郵件伺服器；

第三步，接收郵件伺服器通過SenderID技術對發件人所聲稱的身份進行檢查（該檢查通過DNS的特定查詢進行）；

第四步，如果發現發信人所聲稱的身份和其發信位址相比對，那麼接收該郵件，否則對該郵件采取特定操作，比如直接拒收該郵件,或者作為垃圾郵件。

Sender ID技術實際上并不是根除垃圾郵件的法寶，它隻是一個解決垃圾郵件發送源的技術，從本質上來說，并不能鑒定一個郵件是否是垃圾郵件。比如，垃圾郵件發送者可以通過注冊廉價的域名來發送垃圾郵件，從技術的角度來看，一切都是符合規範的；還有，垃圾郵件發送者還可以通過别人的郵件伺服器的漏洞轉發其垃圾郵件，這同樣是SenderID技術所不能解決的。

2.2.4、FairUCE技術

FairUCE（Fair use of Unsolicited Commercial Email）由IBM開發，該技術使用網絡領域的内置身份管理工具，通過分析電子郵件域名過濾并封鎖垃圾郵件。

FairUCE把收到的郵件同其源頭的IP位址相連結--在電子郵件位址、電子郵件域和發送郵件的計算機之間建立起一種聯系，以确定電子郵件的合法性。比如采用SPF或者其他方法。如果，能夠找到關系，那麼檢查接受方的黑白名單，以及域名名聲，以此決定對該郵件的操作，比如接收、拒絕等。

FairUCE還有一個功能，就是通過溯源找到垃圾郵件的發送源頭，并且将那些傳遞過來的垃圾郵件再轉回給發送源頭，以此來打擊垃圾郵件發送者。這種做法利弊都有。好處就是能夠影響垃圾郵件發送源頭的性能，壞處就是可能打擊倒正常的伺服器（比如被利用的）的正常工作，同時該功能又複制了大量垃圾流量。

2.2.5、局限性和缺點

這些解決方案都具有一定的可用性，但是也存在一些缺點：

**非主機或空的域名

反向查詢方法要求郵件來自已知的并且信任的郵件伺服器，而且對應合理IP位址（反向MX紀錄）。但是，多數的域名實際上并不同完全靜态的IP位址對應。通常情況下，個人和小公司也希望擁有自己的域名，但是，這并不能提供足夠的IP位址來滿足要求。DNS注冊主機，比如GoDaddy，向那些沒有主機或隻有空域名的人提供免費郵件轉發服務。盡管這種郵件轉發服務隻能管理接收的郵件，而不能提供郵件發送服務。

反向查詢解決方案對這些沒有主機或者隻有空域名的使用者造成一些問題：

·沒有反向MX記錄。這些使用者現在可以配置郵件用戶端就可以用自己注冊的域名能發送郵件。但是，要反向查詢發送者域名的IP位址就根本找不到。特别是對于那些移動的、撥号的和其他會頻繁改變自己IP位址的使用者。

·不能發送郵件。要解決上面的問題，一個辦法就是通過ISP的伺服器來轉發郵件，這樣就可以提供一個反向MX紀錄，但是，隻要發送者的域名和ISP的域名不一樣的時候，ISP現在是不會允許轉發郵件的。

這兩種情況下，這些使用者都會被反向查詢系統攔截掉。

**合法域名

能驗證身份，并不一定就是合法的身份，比如：垃圾郵件發送者可以通過注冊廉價的域名來發送垃圾郵件，從技術的角度來看，一切都是符合規範的；還有，目前很多垃圾郵件發送者可以通過别人的郵件伺服器漏洞進入合法郵件系統來轉發其垃圾郵件，這些問題對于驗證查詢來說還無法解決。

2.3、挑戰

垃圾郵件發送者使用一些自動郵件發送軟體每天可以産生數百萬的郵件。挑戰的技術通過延緩郵件處理過程，将可以阻礙大量郵件發送者。那些隻發送少量郵件的正常使用者不會受到明顯的影響。但是，挑戰的技術隻在很少人使用的情況下獲得了成功。如果在更普及的情況下，可能人們更關心的是是否會影響到郵件傳遞而不是會阻礙垃圾郵件。

這裡介紹兩種主要的挑戰形式：挑戰-響應，和計算性挑戰（challenge-response and proposed computational challenges）

2.3.1 挑戰-響應

挑戰-響應（Challenge-Response：CR）系統保留着許可發送者的清單。一個新的郵件發送者發送的郵件将被臨時保留下來而不立即被傳遞。然後向這個郵件發送者傳回一封包含挑戰的郵件（挑戰可以是連接配接URL或者是要求回複）。當完成挑戰後，新的發送者則被加入到許可發送者清單中。對于那些使用假郵件位址的垃圾郵件來說，它們不可能接收到挑戰，而如果使用真實郵件位址的話，又不可能回複所有的挑戰。但是，CR系統還是有許多局限性：

CR死鎖。假如Alice告訴Bill要給朋友Charlie發送郵件。Bill發送一個郵件給Charlie，Charlie的CR系統臨時中斷郵件并發送給Bill一個挑戰。但是Bill的CR系統又會中斷Charlie這裡發送出來的挑戰郵件，并發送自己的挑戰。是以，結果就是，使用者都沒有接收到挑戰，而且使用者也無法回複郵件。而且使用者也無法知道，在挑戰過程中發生了問題。是以，如果雙方都使用CR系統的話，他們就可能根本無法進行溝通。

自動系統問題。郵件清單或者那些自動系統，比如一些網站的"發送給朋友……"功能，就不可能回應挑戰。

解釋挑戰。許多CR系統都執行解釋性挑戰。這些複雜的CR系統包含了字元識别和參數比對，但是即便如此，還是能夠進行自動化操作。比如，Yahoo的CR系統在建立新郵件賬号的時候，對于那些有簡單智能字元分析的系統是存在漏洞的。Hushmail的郵件CR系統要求從藍背景圖檔中找出指定的圖形（分析背景，找出圖形，送出坐标，這是可能的）

這些在市場宣傳神化中強調了兩點：1、人們必須得提供挑戰，2、這些問題都非常複雜而不太可能自動化操作。但是實際上，多數的垃圾郵件發送者完全不理睬了這些CR系統，因為他們主要是擔心沒有大量的接收者，而不是擔心挑戰太複雜。許多垃圾郵件發送者也使用有效的郵件位址。當CR系統會幹擾垃圾郵件的時候，那些發送者也會找出自動化搞定這些挑戰的辦法的。

2.3.2、計算性挑戰

現在也提出了一些計算性挑戰方案Computational Challenge (CC)，如，通過增加發送郵件的"費用"。多數CC系統使用複雜的算法來有意拖延時間。對于單個使用者來說，這種拖延很難被察覺，但是對于發送大量郵件的垃圾郵件發送者來說，這就意味着要花費很多時間了。CC系統的執行個體，如Hash Cash ( http://www.cypherspace.org/adam/hashcash/)。但是，即便如此，CC系統還是會影響快速通訊而不僅僅影響垃圾郵件。這些局限包括：

·不平等影響。計算性挑戰是以CPU、記憶體和網絡為基礎的，比如，在1Ghz計算機上挑戰可能花費10秒，但是在500Mhz上就需要花費20秒了。

·郵件清單。許多郵件清單都有數千，甚至數百萬的接受者。比如BugTraq，就可能會被看作垃圾郵件了。CC系統來處理郵件清單是不現實的。如果垃圾郵件發送有辦法通過合法的郵件清單來繞過挑戰，那麼他們也就有辦法繞過其他的挑戰了。

·機器人程式。Sobig或者其他象垃圾郵件一樣的病毒，能讓垃圾郵件發送者控制大量的機器。這就讓他們能夠用大量的系統來均衡"費用"了。

·合法的機器人程式。垃圾郵件發送者發送垃圾郵件是因為會給他們帶來收入。如果這些人聯合起來，就可能提供大量的系統來分擔"費用"，這完全是合法的，而且不需要通過病毒了。

目前，計算性挑戰還沒有廣泛應用，因為這種技術還不能解決spam問題，反而可能幹擾正常使用者。

2.4、密碼術

現在提出了一些采用密碼技術來驗證郵件發送者的方案。從本質上來說，這些系統采用證書方式來提供證明。沒有适當的證書，僞造的郵件就很容易被識别出來，下面就是一些研究中的密碼解決辦法：

AMTP. http://www.ietf.org/internet-drafts/draft-weinman-amtp-02.txt

MTP. http://www.ietf.org/internet-drafts/draft-danisch-email-mtp-00.txt

S/MIME and PGP/MIME. http://www.imc.org/smime-pgpmime.html

目前的郵件協定（SMTP）不能直接支援加密驗證。研究中的解決方案擴充了SMTP（比如S/MIME，PGP/MIME和AMTP），還有一些其他的則打算代替現在的郵件體系，比如MTP。有趣的是，MTP的作者說到："SMTP已經有20多年曆史了，然而近代的一些需求則在過去5到10年内發展起來。許多擴充都是針對SMTP的語句和語義，純粹的SMTP不能滿足這些需求，如果不改變SMTP的語句，是很難有所突破的。"但是，很多的擴充的SMTP執行個體恰恰表明了SMTP的可變性，而不是不變性，完全創造一個新的郵件傳輸協定并不是必須的。

在采用證書的時候，比如X.509或TLS，某些證書管理機構必須得可用，但是，如果證書存儲在DNS，那麼私鑰必須得在驗證的時候可用。（換句話說，如果垃圾郵件發送者可以通路這些私鑰，那麼他們就可以産生有效的公鑰）。另一方面，也要用到主要的證書管理機構（CA），但是，郵件是一種分布式系統，沒有人希望所有的郵件都由單獨的CA來控制。一些解決辦法是以允許多個CA系統，比如，X.509就會确定可用的CA伺服器。這種擴充性也導緻垃圾郵件發送者也可以運作着私有的CA伺服器。

如果沒有證書管理機構，就需要其他的途徑在發送者和接收者之間來分發密鑰。比如，PGP，就可以預先共享公鑰。在未連接配接網絡或者比較封閉的群組中，這種辦法是可行的，但是在大量個體使用的時候，就不是太适合，特别是對于需要建立新的聯系的情況下。從本質上來說，預先共享密鑰有些類似白名單的過濾器：隻有彼此知道的人才能發送郵件。

不幸的是，這些加密解決方案還不能阻止垃圾郵件，比如，假設其中的一種加密方案廣泛被接受了。這些辦法都不能确認郵件位址是真實的，而隻是可以确認發送者有郵件的正确密鑰。缺點就是：

·濫用自動化工具。如果在廣大範圍内被應用，就需要有一種辦法為所有使用者産生證書或者密鑰（包括郵件伺服器端，郵件用戶端，依賴與相應的解決辦法）系統很可能通過一種自動化的方法來提供密鑰。可是，可以相信垃圾郵件發送者也會濫用任何自動化系統，并且用來發送經認證的垃圾郵件。

·可用性問題。這也有一些可用性的争論。比如，如果CA伺服器不可用怎麼辦？郵件被挂起？退票？還是依然可用？垃圾郵件發送者近來對一半以上的提供黑名單網站進行了拒絕服務攻擊，并導緻這些網站都無法通路。顯然，這些垃圾郵件發送者想阻止别人更新黑名單。對于單一的CA伺服器，很顯然也無法避免這樣的命運。

3、總結

上面介紹了一些反垃圾郵件的技術，其實，現在很多反垃圾郵件方案所采用的都不會隻是一種技術，而是多種多類技術的綜合體。

垃圾郵件的危害現在已經深入人心，反垃圾郵件也取得越來越多的成績，比如，Scott Richter向微軟賠款700萬。不少國家也在為反垃圾郵件進行立法，以便能夠得到法律上的支援。

但從技術上來說，這跟反攻擊一樣，是一個正反雙方的博弈過程，一種新的反垃圾郵件技術必然會出現一種對應得垃圾郵件技術，況且，任何一種技術，還沒有辦法去解決所有問題，技術的發展也将延續下去。

4、參考

1、 Dr. Neal Krawetz, Anti-Spam Solutions and Security

2、 Better Bayesian Filtering， http://www.paulgraham.com/better.html

3、 Anti-Phishing Working Group， http://www.antiphishing.org/

4、 http://antispam.yahoo.com/domainkeys

5、 http://www.microsoft.com/senderid

6、 http://www.alphaworks.ibm.com/tech/fairuce

7、 http://sendmail.net/dk-milter/

反垃圾郵件技術解析

繼續閱讀

Ubunto 安裝Apache2以後 httpd.conf檔案找不到問題

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

Apache httpd 安裝啟動demo（Window版）

極大似然法(ML)與最大期望法(EM)

Apache配置檔案中的deny和allow的使用

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

配置網頁内容通路

艱難安裝LDAP,SSL認證

Apache配置SSLApache配置SSL

Windows下配置Apache的SSL服務

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希