<a href="http://man.chinaunix.net/newsoft/ApacheMenual_CN_2.2new/rewrite/index.html">http://man.chinaunix.net/newsoft/ApacheMenual_CN_2.2new/rewrite/index.html</a>
mod_rewrite子產品提供了一個基于規則的(使用正規表達式分析器的)實時轉向URL請求的引擎。 支援每個規則可以擁有不限數量的規則以及附加條件規則的靈活而且強大的URL操作機制。 此URL操作可以取決于各種測試,比如伺服器變量、環境變量、HTTP頭、時間标記, 甚至各種格式的用于比對URL組成部分的查找資料庫。
mod_rewrite子產品可以操作URL的所有部分(包括路徑資訊部分), 在伺服器級的(httpd.conf)和目錄級的(.htaccess)配置都有效, 還可以生成最終請求串。此重寫操作的結果可以是内部子處理,也可以是外部請求的轉向, 甚至還可以是内部代理處理。
但是,所有這些功能和靈活性帶來一個問題,那就是複雜性, 是以,不要指望一天之内就能看懂整個子產品。
内部處理
mod_rewrite子產品的内部處理極為複雜,但是,為了使一般使用者避免犯低級錯誤, 也讓管理者能充分利用其功能,在此仍然做一下說明。
API程式段
首先,你必須了解,Apache是通過若幹程式段來處理HTTP請求的。 Apache API 對每個程式段提供了一個hook程式。 Mod_rewrite使用兩個hook程式: 其一是,URL到檔案名的轉譯hook,用在讀取HTTP請求之後,而在授權開始之前; 其二是,修正hook,用在授權程式段和讀取目錄級配置檔案(.htaccess)之後, 而在内容處理器激活之前。
是以,Apache收到一個請求并且确定了響應主機(或者是虛拟主機)之後, 重寫引擎即開始執行URL到檔案名程式段,以處理伺服器級的配置中所有的mod_rewrite指令。 在最終資料目錄确定以後,進入修正程式段并觸發目錄級配置中的mod_rewrite指令。 這兩個程式段并不是泾渭分明的,但都實施把URL重寫成新的URL或者檔案名。 雖然API最初不是為此設計的,但它已經成為API的一種用途, 而在Apache 1.x 中這是mod_rewrite唯一的實作方法。 記住以下兩點,會有助于更好地了解:
雖然mod_rewrite可以重寫URL為URL,重寫URL為檔案名, 甚至重寫檔案名為檔案名,但是目前API隻提供一個URL到檔案名的hook。 在Apache 2.0 中,增加了兩個丢失hook以使處理過程更清晰。 但是,這樣做并沒有給使用者帶來麻煩,隻需記住這樣一個事實: Apache借助URL到檔案名的hook而比API設計的目标功能更強大。
難以置信的是,mod_rewrite提供了目錄級的URL操作,即,.htaccess檔案, 而這些檔案必須在URL轉換成檔案名以後的較多步驟完成之後才會被處理。 這也是必須的,因為.htaccess檔案存在于檔案系統中,是以處理已經到達這個層面。 換句話說,根據API程式段,這時再處理任何URL操作已經太晚了。 為了解決這個雞和蛋的問題,mod_rewrite使用了一個技巧: 在進行一個目錄級的URL/檔案名的操作時,mod_rewrite先把檔案名重寫回相應的URL (通常這個操作是不可行的,但是參考下面的RewriteBase指令就明白它是怎麼實作的), 然後,對這個新的URL建立一個新的内部的子請求,以此重新開始API程式段的執行。
另外,mod_rewrite盡力使這些複雜的操作對使用者全透明,但仍須記住: 伺服器級的URL操作速度快而且效率高,而目錄級的操作由于這個雞和蛋的問題速度慢效率也低。 但從另一個側面看,這卻是mod_rewrite得以為一般使用者提供(局部限制的)URL操作的唯一方法。
牢記這兩點!
規則集的處理
當mod_rewrite在這兩個程式段中開始執行時,它會讀取配置結構中的配置好的 (或者是在服務啟動時建立的伺服器級的,或者是Apache核心在周遊目錄采集到的目錄級的)規則集, 随後,啟動URL重寫引擎來處理(帶有一個或多個條件)的規則集。 無論是伺服器級的還是目錄級的規則集,都是由同一個URL重寫引擎處理,隻是處理結果不同而已。
規則集中規則的順序是很重要的,因為重寫引擎是按一種特殊的(非正常的)順序處理的, 其原則是:逐個周遊每個規則(RewriteRule directives), 如果出現一個比對條件的規則,則可能回頭周遊已有的規則條件(RewriteConddirectives)。 由于曆史的原因,條件規則是置前的,是以控制流程略顯冗長,細節見Figure 1。
Figure 1:The control flow through the rewriting ruleset
可見,URL首先與每個規則的Pattern比對, 如果比對不成功,mod_rewrite立即終止此規則的處理,繼而處理下一個規則。 如果比對成功,mod_rewrite尋找響應的規則條件,如果一個條件都沒有, 則簡單地用Substitution構造的新的值來替換URL,然後繼續處理其他規則。 如果條件存在,則開始一個内部循環按其列出的順序逐個處理。 對規則的條件的處理有所不同:URL并不與pattern比對, 而是,首先通過擴充變量、反向引用、查找映射表等步驟建立一個TestString的字元串, 随後,用它來與CondPattern比對。如果比對不成功,則整個條件集和對應的規則失敗; 如果比對成功,則執行下一個規則直到所有條件執行完畢。 如果所有條件得以比對,則以Substitution替換URL,并且繼續處理。
特殊字元的引用
在Apache 1.3.20, TestString and Substitution 字元串中的特殊字元可以用字首的斜杠來實作轉義(即,忽略其特殊含義而視之為普通字元)。 比如,Substitution可以用'/$'來包含一個美元符号, 以避免mod_rewrite把它視為反向引用。
正規表達式的反向引用能力
這是很重要的一點:一旦在Pattern或者CondPattern使用了圓括号, 就會建立内部的反向引用,可以使用$N和%N來調用(見下述), 并且,在Substitution和TestString中都有效。 Figure 2 說明了反向引用被轉換擴充的位置。
Figure 2: The back-reference flow through a rule.
雖然mod_rewrite内部處理的這個過程是比較雜亂的, 但是了解這些可以幫助你閱讀下文中指令的講述。
環境變量
mod_rewrite子產品會跟蹤兩個額外的(非标準的)CGI/SSI環境變量, SCRIPT_URL和SCRIPT_URI。 他們包含了目前資源的邏輯的網絡狀态, 而标準的CGI/SSI變量SCRIPT_NAME和 SCRIPT_FILENAME包含的是實體的系統狀态。
注意: 這些變量保持的是其最初被請求時的URI/URL, 即, 在任何重寫操作之前的。 其重要性在于他們是重寫操作重寫URL到實體路徑名的原始依據。
舉例
SCRIPT_NAME=/sw/lib/w3s/tree/global/u/rse/.www/index.html
SCRIPT_FILENAME=/u/rse/.www/index.html
SCRIPT_URL=/u/rse/
SCRIPT_URI=http://en1.engelschall.com/u/rse/
實用方案
我們還提供另外一個文檔URL Rewriting Guide, 列舉了許多基于URL的問題的實用方案,其中你可以找到真實有用的規則集和mod_rewrite的更多資訊。
RewriteBase 指令
RewriteBase指令顯式地設定了目錄級重寫的基準URL。 在下文中,你可以看見RewriteRule可以用于目錄級的配置檔案中(.htaccess), 并在局部範圍内起作用,即,規則實際處理的隻是剝離了本地路徑字首的一部分。 處理結束後,這個路徑會被自動地附着回去。 預設值是,RewriteBase physical-directory-path
在對一個新的URL進行替換時,mod_rewrite子產品必須把這個URL重新注入到伺服器進行中。 為此,它必須知道其對應的URL字首或者說URL基準。通常,此字首就是對應的檔案路徑。 但是,大多數網站URL不是直接對應于其實體檔案路徑的,因而一般不能做這樣的假定! 是以在這種情況下,就必須用RewriteBase指令來指定正确的URL字首。
如果你的網站伺服器URL不是與實體檔案路徑直接對應的, 而又需要使用RewriteRule指令, 則必須在每個對應的.htaccess檔案中指定RewriteBase。
舉例,目錄級配置檔案内容如下:
#
# /abc/def/.htaccess -- per-dir config file for directory /abc/def
# Remember: /abc/def is the physical path of /xyz, i.e., the server
# has a 'Alias /xyz /abc/def' directive e.g.
RewriteEngine On
# let the server know that we were reached via /xyz and not
# via the physical path prefix /abc/def
RewriteBase /xyz
# now the rewriting rules
RewriteRule ^oldstuff/.html$ newstuff.html
上述例子中,對/xyz/oldstuff.html 的請求被正确地重寫為實體的檔案/abc/def/newstuff.html.
For Apache Hackers
以下列出了内部處理的詳細步驟:
Request:
/xyz/oldstuff.html
Internal Processing:
/xyz/oldstuff.html ->; /abc/def/oldstuff.html (per-server Alias)
/abc/def/oldstuff.html ->; /abc/def/newstuff.html (per-dir RewriteRule)
/abc/def/newstuff.html ->; /xyz/newstuff.html (per-dir RewriteBase)
/xyz/newstuff.html ->; /abc/def/newstuff.html (per-server Alias)
Result:
/abc/def/newstuff.html
雖然這個過程看來很繁複,但是由于目錄級重寫的到來時機已經太晚了, 它不得不把這個(重寫)請求重新注入到Apache核心中,是以Apache内部确實是這樣處理的。 但是:它的開銷并不象看起來的那樣大,因為重新注入完全在Apache伺服器内部進行, 而且這樣的過程在Apache内部也為其他許多操作所使用。 是以,你可以充分信任其設計和實作是正确的。
RewriteCond 指令
RewriteCond指令定義了一個規則的條件,即,在一個RewriteRule指令之前有一個或多個RewriteCond指令。 條件之後的重寫規則僅在目前URI與pattern比對并且符合這些條件的時候才會起作用。
TestString是一個純文字的字元串,但是還可以包含下列可擴充的成分:
RewriteRule反向引用: 引用方法是
$N
(0 <= N <= 9) 引用目前(帶有若幹RewriteCond指令的)RewriteRule中的 與pattern比對的分組成分(圓括号!)。
RewriteCond反向引用: 引用方法是
%N
(1 <= N <= 9) 引用目前若幹RewriteCond條件中最後符合的條件中的分組成分(圓括号!)。
RewriteMap 擴充: 引用方法是
${mapname:key|default}
細節請參見the documentation for RewriteMap。
伺服器變量: 引用方法是
%{ NAME_OF_VARIABLE }
NAME_OF_VARIABLE可以是下表列出的字元串之一: HTTP headers: connection & request:
HTTP_USER_AGENT
HTTP_REFERER
HTTP_COOKIE
HTTP_FORWARDED
HTTP_HOST
HTTP_PROXY_CONNECTION
HTTP_ACCEPT
REMOTE_ADDR
REMOTE_HOST
REMOTE_USER
REMOTE_IDENT
REQUEST_METHOD
SCRIPT_FILENAME
PATH_INFO
QUERY_STRING
AUTH_TYPE
server internals: system stuff: specials:
DOCUMENT_ROOT
SERVER_ADMIN
SERVER_NAME
SERVER_ADDR
SERVER_PORT
SERVER_PROTOCOL
SERVER_SOFTWARE
TIME_YEAR
TIME_MON
TIME_DAY
TIME_HOUR
TIME_MIN
TIME_SEC
TIME_WDAY
TIME
API_VERSION
THE_REQUEST
REQUEST_URI
REQUEST_FILENAME
IS_SUBREQ
這些都對應于類似命名的HTTP MIME頭、Apache伺服器的C變量以及Unix系統中的 struct tm字段,大多數都在其他的手冊或者CGI規範中有所講述。 而其中為mod_rewrite所特有的變量有:
如果正在處理的請求是一個子請求,它包含字元串"true",否則就是"false"。 子產品為了解析URI中的附加檔案,有可能會産生子請求。
這是正在使用的httpd中(伺服器和子產品之間内部接口)的Apache子產品API的版本, 其定義位于include/ap_mmn.h中。mod_rewrite子產品版本對應于正在使用的Apache的版本 (比如,在Apache 1.3.14的發行版中,這個值是19990320:10)。 通常,對它感興趣的是子產品的作者。
這是由浏覽器發送給伺服器的完整的HTTP請求行。(比如, "GET /index.html HTTP/1.1"). 它不包含任何浏覽器發送的附加頭資訊。
這是在HTTP請求行中所請求的資源。(比如上述例子中的"/index.html".)
這是與請求相比對的完整的本地檔案系統的檔案路徑名或描述.
特别注意事項:
SCRIPT_FILENAME和REQUEST_FILENAME包含的值是相同的,即, Apache伺服器的内部request_rec結構中的filename字段。 第一個其實就是大家都知道的CGI變量名,而第二個則是( 包含了request_rec結構中的uri字段的)REQUEST_URI的一個副本,
特殊形式: %{ENV:variable} 其中的variable可以是任何環境變量。 它是通過查找Apache内部結構得到的, 或者(如果沒找到的話)是由Apache伺服器程序通過getenv()得到的。
特殊形式: %{HTTP:header} 其中的header可以是任何HTTP MIME頭的名稱。 它是通過查找HTTP請求得到的。比如: %{HTTP:Proxy-Connection}就是HTTP頭 ``Proxy-Connection:''的值.
特殊形式 %{LA-U:variable} 它是一個預設的值, variable的最終值在執行一個内部的(基于URL的)子請求後決定。 在重寫需要使用一個尚未有效的但是會在之後的API程式段中設定的變量的時候,就會使用這個方法。 比如,需要在伺服器級配置(httpd.conf檔案)中重寫REMOTE_USER變量, 則,必須使用%{LA-U:REMOTE_USER},因為此變量是由認證程式段設定的, 而這個程式段是在mod_rewrite所在的URL轉譯程式段之後才執行的。 但是,因為mod_rewrite是通過API修正程式段來實作目錄級(.htaccess file)配置的, 而這個程式段在認證程式段之前就執行了,是以用%{REMOTE_USER}就可以了。
特殊形式: %{LA-F:variable} 它是一個預設的值, variable的最終值在執行一個内部的(基于檔案名的)子請求後決定。 大多數情況下和上述的LA-U是相同的.
CondPattern是條件pattern, 即, 一個應用于目前執行個體TestString的正規表達式, 即, TestString将會被計算然後與CondPattern比對.
謹記: CondPattern是一個相容perl的正規表達式, 但是還有若幹增補:
可以在pattern串中使用'!' 字元(驚歎号)來實作比對的反轉。
CondPatterns有若幹特殊的變種。除了正規表達式的标準用法,還有下列用法:
'<CondPattern' (詞典順序的小于)
将CondPattern視為純字元串,與TestString以詞典順序相比較. 如果按詞典順序,TestString小于CondPattern,則為真.
'>;CondPattern' (詞典順序的大于)
将CondPattern視為純字元串,與TestString以詞典順序相比較. 如果按詞典順序,TestString大于CondPattern,則為真.
'=CondPattern' (詞典順序的等于)
将CondPattern視為純字元串,與TestString以詞典順序相比較. 如果按詞典順序,TestString等于CondPattern,則為真,即, 兩個字元串(逐個字元地)完全相等。如果CondPattern隻是""(兩個引号), 則TestString将與空串相比較.
'-d' (是一個目錄[directory])
将TestString視為一個路徑名并測試它是否存在而且是一個目錄.
'-f' (是一個正常的檔案[file])
将TestString視為一個路徑名并測試它是否存在而且是一個正常的檔案.
'-s' (是一個非空的正常檔案[size])
将TestString視為一個路徑名并測試它是否存在而且是一個尺寸大于0的正常的檔案.
'-l' (是一個符号連接配接[link])
将TestString視為一個路徑名并測試它是否存在而且是一個符号連接配接.
'-F' (對子請求有效的業已存在的檔案)
測試TestString是否一個有效的檔案, 而且可以被伺服器目前已經配置的所有存取控制所存取。 它用一個内部子請求來做判斷,由于會降低伺服器的性能,請小心使用!
'-U' (對子請求有效的業已存在的URL)
測試TestString是否一個有效的URL, 而且可以被伺服器目前已經配置的所有存取控制所存取。 它用一個内部子請求來做判斷,由于會降低伺服器的性能,請小心使用!
注意
所有這些測試都可以用驚歎号作字首('!')以實作條件的反轉.
另外,還可以為CondPattern追加特殊的标記
[flags]
作為RewriteCond指令的第三個參數。 Flags是一個以逗号分隔的以下标記的清單:
'nocase|NC' (no case)
它使測試忽略大小寫, 即, 擴充後的TestString和CondPattern中, 'A-Z' 和'a-z'是沒有差別的。此标記僅作用于TestString和CondPattern的比較, 而對檔案系統和子請求的測試不起作用。
'ornext|OR' (or next condition)
它以OR方式組合若幹規則的條件,而不是隐含的AND。典型的例子如下:
RewriteCond %{REMOTE_HOST} ^host1.* [OR]
RewriteCond %{REMOTE_HOST} ^host2.* [OR]
RewriteCond %{REMOTE_HOST} ^host3.*
RewriteRule ...some special stuff for any of these hosts...
如果不用這個标記,則必須使用三個 條件/規則。
舉例:
如果要按請求頭中的``User-Agent:'重寫一個站點的首頁,可以這樣寫:
RewriteCond %{HTTP_USER_AGENT} ^Mozilla.*
RewriteRule ^/$ /homepage.max.html [L]
RewriteCond %{HTTP_USER_AGENT} ^Lynx.*
RewriteRule ^/$ /homepage.min.html [L]
RewriteRule ^/$ /homepage.std.html [L]
含義: 如果你使用的浏覽器是Netscape Navigator(其識别标志是'Mozilla'), 則你将得到内容最大化的首頁,包括Frames等等; 如果你使用的是(基于終端的)Lynx,則你得到的是内容最小化的首頁,不包含tables等等; 如果你使用的是其他的浏覽器,則你得到的是一個标準的首頁。
RewriteEngine 指令
RewriteEngine指令打開或關閉運作時刻的重寫引擎。 如果設定為off,則mod_rewrite子產品不執行任何運作時刻的重寫操作, 甚至也不更新SCRIPT_URx環境變量。
使用該指令可以使mod_rewrite子產品無效,而無須注釋所有的RewriteRule指令!
注意:預設情況下,重寫配置是不可繼承的, 即,必須在每個需要的虛拟主機中設定一個RewriteEngine on指令。
RewriteLock 指令
此指令設定mod_rewrite為了和RewriteMap 程式通訊而使用的一個同步加鎖檔案的名稱。 在需要使用重寫映射表程式時,它必須是一個本地路徑(而不能是一個NFS挂接裝置); 對其他類型的重寫映射表,則無此要求。
RewriteLog 指令
RewriteLog指令設定用于記錄所有重寫操作的檔案的名稱。 如果此檔案名不是以斜杠('/')開頭,則它是相對于Server Root的。 此指令應該僅僅出現在伺服器級配置中。
如果要關閉對重寫操作的記錄,不推薦把Filename設定為/dev/null, 因為,雖然重寫引擎不能輸出記錄了,但仍會内部地建立這個日志檔案, 它會使伺服器速度降低,而且對管理者毫無益處! 要關閉日志,可以删除或注解RewriteLog指令, 或者使用RewriteLogLevel 0!
安全
參見Apache Security Tips,其中講述了, 為什麼如果存放日志的目錄對除了啟動伺服器以外的使用者是可寫的會帶來安全隐患。
RewriteLog "/usr/local/var/apache/logs/rewrite.log"
RewriteLogLevel 指令
RewriteLogLevel指令設定重寫引擎日志的詳細程度的級别。 預設級别0意味着不記錄,而9或更大的值意味着記錄所有的操作。
要關閉重寫引擎日志,可以簡單地設此值為0,關閉所有的重寫操作記錄。
使用較高的Level值會使Apache伺服器速度急劇下降! 重寫日志使用大于2的Level值隻用于調試!
RewriteLogLevel 3
RewriteMap 指令
RewriteMap定義一個映射表, 由映射函數用于查找關鍵詞來插入/替換字段。此查找操作的源可以是多種類型。
MapName是映射表的名稱, 指定了一個映射函數,用于重寫規則的字元串替換,它可以是下列形式之一:
${ MapName : LookupKey }
${ MapName : LookupKey | DefaultValue }
如果使用了這樣的形式,則會在MapName中查找關鍵詞LookupKey。 如果找到了,則被替換成SubstValue; 如果沒有找到,則被替換成DefaultValue, 如果沒有指定DefaultValue,則被替換成空字元串。
可以使用下列MapType和MapSource的組合:
标準純文字
MapType: txt, MapSource: 有效的Unix檔案系統檔案名
這是重寫映射表的标準形式,即, MapSource是一個純文字檔案,包含空行、注釋行(以字元'#'打頭), 以及每行一個的替換對,如下。
MatchingKey SubstValue
Example
##
## map.txt -- rewriting map
Ralf.S.Engelschall rse # Bastard Operator From Hell
Mr.Joe.Average joe # Mr. Average
RewriteMap real-to-user txt:/path/to/file/map.txt
随機純文字
MapType: rnd, MapSource: 有效的Unix檔案系統檔案名
這個與上述的标準純文字很相似,但它有一個特殊的後處理特性: 查找完畢後,會解析其中包含的含義為``or''和``|''符号。 也就是說,會随機地選擇其中之一作為實際的傳回值。 雖然這看似毫無意義,但它的設計意圖是, 在一個查找值是伺服器名稱的反向代理環境中,實作負載平衡。如:
static www1|www2|www3|www4
dynamic www5|www6
RewriteMap servers rnd:/path/to/file/map.txt
散列檔案
MapType: dbm[=type], MapSource: 有效的Unix檔案系統檔案名
這裡的源是一個二進制格式的DBM檔案,包含了與純文字相同的内容, 但是因為它有優化的特殊表現形式,使它的查找速度明顯快得多。 此類型可以是sdbm, gdbm, ndbm或db,由compile-time settings所決定。如果省略type,則使用編譯時選擇的預設設定。 你可以使用任何DBM工具或者下列Perl腳本來建立這個檔案,但必須保證DBM的類型正确。 建立NDBM檔案的例子:
#!/path/to/bin/perl
## txt2dbm -- convert txt map to dbm format
use NDBM_File;
use Fcntl;
($txtmap, $dbmmap) = @ARGV;
open(TXT, "<$txtmap") or die "Couldn't open $txtmap!/n";
tie (%DB, 'NDBM_File', $dbmmap,O_RDWR|O_TRUNC|O_CREAT, 0644)
or die "Couldn't create $dbmmap!/n";
while (<TXT>;) {
next if (/^/s*#/ or /^/s*$/);
$DB{$1} = $2 if (/^/s*(/S+)/s+(/S+)/);
}
untie %DB;
close(TXT);
$ txt2dbm map.txt map.db
内部函數
MapType: int, MapSource: 内部的Apache函數
這裡的源是一個内部的Apache函數。 目前,還不能由你自己建立,隻能使用下列已經存在的函數:
toupper:
轉換查找關鍵詞為大寫.
tolower:
轉換查找關鍵詞為小寫.
escape:
轉換查找關鍵詞中的特殊字元為十六進制編碼.
unescape:
轉換查找關鍵詞中的十六進制編碼為特殊字元.
外部的重寫程式
MapType: prg, MapSource: 有效的Unix檔案系統檔案名
這裡的源是一個程式,而不是一個映射表檔案。 程式的編制語言可以随意選擇,但最終結果必須是可執行的 (即, 或者是目标代碼,或者是首行為'#!/path/to/interpreter'的腳本).
此程式僅在Apache伺服器啟動時啟動一次, 随後通過stdin和stdout檔案句柄與重寫引擎互動。 對每個映射函數的查找操作,它從stdin接收以回車結束的查找關鍵詞, 然後把查找結果以回車結束回報到stdout, 如果查找失敗,則傳回四個字元的``NULL'' (即, 對給定的關鍵詞沒有對應的值)。 此程式的最簡單形式是一個1:1的映射(即,key == value),如:
#!/usr/bin/perl
$| = 1;
while (<STDIN>;) {
# ...put here any transformations or lookups...
print $_;
但是必須注意:
``即使它看來簡單而愚蠢,隻要正确,就保持原樣(Keep it simple, stupid)'' (KISS), 因為,在規則起作用時,此程式的崩潰會直接導緻Apache伺服器的崩潰。
避免犯一個常見的錯誤: 絕不要對stdout做緩沖I/O! 它會導緻死循環! 是以上述例子中才會有``$|=1''...
使用RewriteLock指令定義一個加鎖檔案, 用于同步mod_rewrite和此程式之間的通訊。預設時是沒有同步操作的。
RewriteMap指令允許多次出現。 對每個映射函數都可以使用一個RewriteMap指令來定義其重寫映射表。 雖然不能在目錄的上下文中定義映射表, 但是,完全可以在其中使用映射表。
對于純文字和DBM格式的檔案,已經查找過的關鍵詞會被緩存在核心中, 直到映射表的mtime改變了或者伺服器重新開機了。 這樣,你可以把每個請求都會用到的映射函數放在規則中,這是沒有問題的,因為外部查找隻進行一次!
RewriteOptions 指令
RewriteOptions指令為目前伺服器級和目錄級的配置設定一些選項。 Option可以是下列值之一:
inherit
此值強制目前配置可以繼承其父配置。 在虛拟主機級配置中,它意味着主伺服器的映射表、條件和規則可以被繼承。 在目錄級配置中,它意味着其父目錄的.htaccess中的條件和規則可以被繼承。
MaxRedirects=number
為了避免目錄級RewriteRule的無休止的内部重定向, 在此類重定向和500内部伺服器錯誤次數達到一個最大值的時候, mod_rewrite會停止對此請求的處理。 如果你确實需要對每個請求允許大于10次的内部重定向,可以增大這個值。
RewriteRule 指令
RewriteRule指令是重寫引擎的根本。此指令可以多次使用。 每個指令定義一個簡單的重寫規則。這些規則的定義順序尤為重要, 因為,在運作時刻,規則是按這個順序逐一生效的.
Pattern是一個作用于目前URL的相容perl的正規表達式. 這裡的``目前''是指該規則生效時的URL的值。 它可能與被請求的URL不同,因為其他規則可能在此之前已經發生比對并對它做了改動。
正規表達式的一些用法:
Text:
. Any single character
[chars] Character class: One of chars
[^chars] Character class: None of chars
text1|text2 Alternative: text1 or text2
Quantifiers:
? 0 or 1 of the preceding text
* 0 or N of the preceding text (N >; 0)
+ 1 or N of the preceding text (N >; 1)
Grouping:
(text) Grouping of text
(either to set the borders of an alternative or
for making backreferences where the Nth group can
be used on the RHS of a RewriteRule with $N)
Anchors:
^ Start of line anchor
$ End of line anchor
Escaping:
/char escape that particular char
(for instance to specify the chars ".[]()" etc.)
更多有關正規表達式的資料請參見perl正規表達式手冊頁("perldoc perlre"). 如果你對正規表達式的更詳細的資料及其變種(POSIX regex 等.)感興趣, 請參見以下專著:
Mastering Regular Expressions
Jeffrey E.F. Friedl
Nutshell Handbook Series
O'Reilly & Associates, Inc. 1997
ISBN 1-56592-257-3
另外,在mod_rewrite中,還可以使用否字元('!')的pattern字首,以實作pattern的反轉。 比如:``如果目前URL不與pattern相比對''. 它用于使用否pattern較容易描述的需要排除的某些情況,或者作為最後一條規則。
使用否字元以反轉pattern時,pattern中不能使用分組的通配成分。 由于pattern不比對而使分組的内容是空的,是以它是不可能實作的。 是以,如果使用了否pattern,那麼後繼的字元串中就不能使用$N!
重寫規則中的Substitution是, 當原始URL與Pattern相比對時,用以替代(或替換)的字元串。 除了純文字,還可以使用
$N 反向引用RewriteRule的pattern
%N 反向引用最後比對的RewriteCond pattern
規則條件測試字元串中(%{VARNAME})的伺服器變量
映射函數調用(${mapname:key|default})
反向引用的$N (N=0..9) 是指用Pattern所比對的第N組的内容去替換URL。 伺服器變量與RewriteCond指令的TestString相同。 映射函數由RewriteMap指令所決定,其說明也參見該指令。 這三種類型變量按上面清單中的順序被擴充。
如上所述,所有的重寫規則都是(按配置檔案中的定義順序)作用于Substitution的。 URL被Substitution完全地替換,并繼續處理直到所有規則處理完畢, 除非用L标記顯式地終結 - 見下文。
'-'是一個特殊的替換串,意思是不要替換! 似乎很愚蠢吧? 不, 它可以用于僅僅比對某些URL而無須替換的情況下,即, 在發生替換前,允許以C (chain)标記連接配接的多個pattern同時起作用。
還有,你甚至可以在替換字元串中建立包含請求串的URL。 在替換串中使用問号,以标明其後繼的成分應該被重新注入到QUERY_STRING中。 要删除一個已有的請求串,可以用問号來終結替換字元串。
一個特殊功能: 在用http://thishost[]作為替換字段的字首時, mod_rewrite會把它自動剝離出去。 在配合生成主機名的映射函數使用的時候, 這個對隐含的外部重定向URL的精簡化操作是有用的而且是重要的。 下面例子一節中的第一個例子有助于了解這點。
謹記
由于此功能的存在,以http://thishost為字首的無條件外部重定向在你自己的伺服器上是無效的。 要做這樣一個自身的重定向,必須使用R标記 (見下文).
此外,Substitution還可以追加特殊标記
作為RewriteRule指令的第三個參數。 Flags是一個包含以逗号分隔的下列标記的清單:
'redirect|R [=code]' (強制重定向 redirect)
以http://thishost[]/(使新的URL成為一個URI) 為字首的Substitution可以強制性執行一個外部重定向。 如果code沒有指定,則産生一個HTTP響應代碼302(臨時性移動)。 如果需要使用在300-400範圍内的其他響應代碼,隻需在此指定這個數值即可, 另外,還可以使用下列符号名稱之一: temp (預設的), permanent, seeother. 用它可以把規範化的URL回報給用戶端,如, 重寫``/~''為 ``/u/'',或對/u/user加上斜杠,等等。
注意: 在使用這個标記時,必須確定該替換字段是一個有效的URL! 否則,它會指向一個無效的位置! 并且要記住,此标記本身隻是對URL加上 http://thishost[]/的字首,重寫操作仍然會繼續。 通常,你會希望停止重寫操作而立即重定向,則還需要使用'L'标記.
'forbidden|F' (強制URL為被禁止的 forbidden)
強制目前URL為被禁止的,即,立即回報一個HTTP響應代碼403(被禁止的)。 使用這個标記,可以連結若幹RewriteConds以有條件地阻塞某些URL。
'gone|G' (強制URL為已廢棄的 gone)
強制目前URL為已廢棄的,即,立即回報一個HTTP響應代碼410(已廢棄的)。 使用這個标記,可以标明頁面已經被廢棄而不存在了.
'proxy|P' (強制為代理 proxy)
此标記使替換成分被内部地強制為代理請求,并立即(即, 重寫規則處理立即中斷)把處理移交給代理子產品。 你必須確定此替換串是一個有效的(比如常見的以 http://hostname開頭的)能夠為Apache代理子產品所處理的URI。 使用這個标記,可以把某些遠端成分映射到本地伺服器名稱空間, 進而增強了ProxyPass指令的功能。
注意: 要使用這個功能,代理子產品必須編譯在Apache伺服器中。 如果你不能确定,可以檢查``httpd -l''的輸出中是否有mod_proxy.c。 如果有,則mod_rewrite可以使用這個功能; 如果沒有,則必須啟用mod_proxy并重新編譯``httpd''程式。
'last|L' (最後一個規則 last)
立即停止重寫操作,并不再應用其他重寫規則。 它對應于Perl中的last指令或C語言中的break指令。 這個标記可以阻止目前已被重寫的URL為其後繼的規則所重寫。 舉例,使用它可以重寫根路徑的URL('/')為實際存在的URL, 比如, '/e/www/'.
'next|N' (重新執行 next round)
重新執行重寫操作(從第一個規則重新開始). 這時再次進行處理的URL已經不是原始的URL了,而是經最後一個重寫規則處理的URL。 它對應于Perl中的next指令或C語言中的continue指令。 此标記可以重新開始重寫操作,即, 立即回到循環的頭部。
但是要小心,不要制造死循環!
'chain|C' (與下一個規則相連結 chained)
此标記使目前規則與下一個(其本身又可以與其後繼規則相連結的, 并可以如此反複的)規則相連結。 它産生這樣一個效果: 如果一個規則被比對,通常會繼續處理其後繼規則, 即,這個标記不起作用;如果規則不能被比對, 則其後繼的連結的規則會被忽略。比如,在執行一個外部重定向時, 對一個目錄級規則集,你可能需要删除``.www'' (此處不應該出現``.www''的)。
'type|T=MIME-type' (強制MIME類型 type)
強制目标檔案的MIME類型為MIME-type。 比如,它可以用于模拟mod_alias中的ScriptAlias指令, 以内部地強制被映射目錄中的所有檔案的MIME類型為``application/x-httpd-cgi''.
'nosubreq|NS' (僅用于不對内部子請求進行處理 no internal sub-request)
在目前請求是一個内部子請求時,此标記強制重寫引擎跳過該重寫規則。 比如,在mod_include試圖搜尋可能的目錄預設檔案(index.xxx)時, Apache會内部地産生子請求。對子請求,它不一定有用的,而且如果整個規則集都起作用, 它甚至可能會引發錯誤。是以,可以用這個标記來排除某些規則。
根據你的需要遵循以下原則: 如果你使用了有CGI腳本的URL字首,以強制它們由CGI腳本處理, 而對子請求處理的出錯率(或者開銷)很高,在這種情況下,可以使用這個标記。
'nocase|NC' (忽略大小寫 no case)
它使Pattern忽略大小寫,即, 在Pattern與目前URL比對時,'A-Z' 和'a-z'沒有差別。
'qsappend|QSA' (追加請求串 query string append)
此标記強制重寫引擎在已有的替換串中追加一個請求串,而不是簡單的替換。 如果需要通過重寫規則在請求串中增加資訊,就可以使用這個标記。
'noescape|NE' (在輸出中不對URI作轉義 no URI escaping)
此标記阻止mod_rewrite對重寫結果應用正常的URI轉義規則。 一般情況下,特殊字元(如'%', '$', ';'等)會被轉義為等值的十六進制編碼。 此标記可以阻止這樣的轉義,以允許百分号等符号出現在輸出中,如:
RewriteRule /foo/(.*) /bar?arg=P1/%3d$1 [R,NE]
可以使'/foo/zed'轉向到一個安全的請求'/bar?arg=P1=zed'.
'passthrough|PT' (移交給下一個處理器 pass through)
此标記強制重寫引擎将内部結構request_rec中的uri字段設定為 filename字段的值,它隻是一個小修改,使之能對來自其他URI到檔案名翻譯器的 Alias,ScriptAlias, Redirect 等指令的輸出進行後續處理。舉一個能說明其含義的例子: 如果要通過mod_rewrite的重寫引擎重寫/abc為/def, 然後通過mod_alias使/def轉變為/ghi,可以這樣:
RewriteRule ^/abc(.*) /def$1 [PT]
Alias /def /ghi
如果省略了PT标記,雖然mod_rewrite運作正常, 即, 作為一個使用API的URI到檔案名翻譯器, 它可以重寫uri=/abc/...為filename=/def/..., 但是,後續的mod_alias在試圖作URI到檔案名的翻譯時,則會失效。
注意: 如果需要混合使用不同的包含URI到檔案名翻譯器的子產品時, 就必須使用這個标記。。 混合使用mod_alias和mod_rewrite就是個典型的例子。
For Apache hackers
如果目前Apache API除了URI到檔案名hook之外,還有一個檔案名到檔案名的hook, 就不需要這個标記了! 但是,如果沒有這樣一個hook,則此标記是唯一的解決方案。 Apache Group讨論過這個問題,并在Apache 2.0 版本中會增加這樣一個hook。
'skip|S=num' (跳過後繼的規則 skip)
此标記強制重寫引擎跳過目前比對規則後繼的num個規則。 它可以實作一個僞if-then-else的構造: 最後一個規則是then從句,而被跳過的skip=N個規則是else從句. (它和'chain|C'标記是不同的!)
'env|E=VAR:VAL' (設定環境變量 environment variable)
此标記使環境變量VAR的值為VAL, VAL可以包含可擴充的反向引用的正規表達式$N和%N。 此标記可以多次使用以設定多個變量。 這些變量可以在其後許多情況下被間接引用,但通常是在XSSI (via <!--#echo var="VAR"-->;) or CGI (如 $ENV{'VAR'})中, 也可以在後繼的RewriteCond指令的pattern中通過%{ENV:VAR}作引用。 使用它可以從URL中剝離并記住一些資訊。
'cookie|CO=NAME:VAL:domain[:lifetime[]]' (設定cookie)
它在用戶端浏覽器上設定一個cookie。 cookie的名稱是NAME,其值是VAL。 domain字段是該cookie的域,比如'.apache.org', 可選的lifetime是cookie生命期的分鐘數, 可選的path是cookie的路徑。
絕不要忘記,在伺服器級配置檔案中,Pattern是作用于整個URL的。 但是在目錄級配置檔案中, (一般總是和特定目錄名稱相同的)目錄字首會在pattern比對時被自動删除, 而又在替換完畢後自動被加上。此特性對很多種重寫是必須的,因為, 如果沒有這個剝離字首的動作,就必須與其父目錄去比對,而這并不總是可行的。
但是有一個例外: 如果替換串以``http://''開頭, 則不會附加目錄字首, 而是強制産生一個外部重定向,或者(如果使用了P标記)是一個代理操作!
為了對目錄級配置啟用重寫引擎,你必須在這些檔案中設定``RewriteEngine On'', 并且打開``Options FollowSymLinks'。 如果管理者對使用者目錄禁用了FollowSymLinks, 則無法使用重寫引擎。這個限制是為了安全而設定的。
以下是所有可能的替換組合及其含義:
在伺服器級配置中(httpd.conf)
,對這樣一個請求 ``GET /somepath/pathinfo'':
Given Rule Resulting Substitution
---------------------------------------------- ----------------------------------
^/somepath(.*) otherpath$1 not supported, because invalid!
^/somepath(.*) otherpath$1 [R] not supported, because invalid!
^/somepath(.*) otherpath$1 [P] not supported, because invalid!
^/somepath(.*) /otherpath$1 /otherpath/pathinfo
^/somepath(.*) /otherpath$1 [R] http://thishost/otherpath/pathinfo
via external redirection
^/somepath(.*) /otherpath$1 [P] not supported, because silly!
^/somepath(.*) http://thishost/otherpath$1 /otherpath/pathinfo
^/somepath(.*) http://thishost/otherpath$1 [R] http://thishost/otherpath/pathinfo
^/somepath(.*) http://thishost/otherpath$1 [P] not supported, because silly!
^/somepath(.*) http://otherhost/otherpath$1 http://otherhost/otherpath/pathinfo
^/somepath(.*) http://otherhost/otherpath$1 [R] http://otherhost/otherpath/pathinfo
(the [R] flag is redundant)
^/somepath(.*) http://otherhost/otherpath$1 [P] http://otherhost/otherpath/pathinfo
via internal proxy
在/somepath的目錄級配置中
(即, 目錄/physical/path/to/somepath的.htaccess檔案中包含 RewriteBase /somepath)
對這樣一個請求``GET /somepath/localpath/pathinfo'':
^localpath(.*) otherpath$1 /somepath/otherpath/pathinfo
^localpath(.*) otherpath$1 [R] http://thishost/somepath/otherpath/pathinfo
^localpath(.*) otherpath$1 [P] not supported, because silly!
^localpath(.*) /otherpath$1 /otherpath/pathinfo
^localpath(.*) /otherpath$1 [R] http://thishost/otherpath/pathinfo
^localpath(.*) /otherpath$1 [P] not supported, because silly!
^localpath(.*) http://thishost/otherpath$1 /otherpath/pathinfo
^localpath(.*) http://thishost/otherpath$1 [R] http://thishost/otherpath/pathinfo
^localpath(.*) http://thishost/otherpath$1 [P] not supported, because silly!
^localpath(.*) http://otherhost/otherpath$1 http://otherhost/otherpath/pathinfo
^localpath(.*) http://otherhost/otherpath$1 [R] http://otherhost/otherpath/pathinfo
^localpath(.*) http://otherhost/otherpath$1 [P] http://otherhost/otherpath/pathinfo
要重寫這種形式的URL
/ Language /~ Realname /.../ File
為
/u/ Username /.../ File . Language
可以把這樣的對應關系儲存在/path/to/file/map.txt映射檔案中, 此後,隻要在Apache伺服器配置檔案中增加下列行,即可:
RewriteLog /path/to/file/rewrite.log
RewriteMap real-to-user txt:/path/to/file/map.txt
RewriteRule ^/([^/]+)/~([^/]+)/(.*)$ /u/${real-to-user:$2|nobody}/$3.$1