天天看點

正規表達式中的元字元

在軟體構造實驗三中,我們為排班表應用添加了一個從文本中讀取排班資訊的功能

文本中給出的資訊在格式上可能是錯誤的,如果我們直接拿來使用的話,當我們在後續的對文本資訊進行解析的過程中,可能會出現很多不必要的麻煩

通過使用正規表達式,在對文本内容解析之前,先篩除掉格式錯誤的文本檔案,可以很大程度上減少我們後續過程中的工作量

我總結了一下常用的正規表達式的元字元,并簡單介紹了一下它們的含義

正規表達式中的元字元

元字元 正規表達式中的寫法 含義
. "." 代表任意一個字元
\d "\\d" 代表0~9的任意一個數字
\D "\\D" 代表任意一個非數字字元
\s "\\s" 代表空白字元。如‘\t’、‘\n’
\\S "\\S" 代表非空白字元
\w "\\w" 代表可用作辨別符的字元(不包括‘$’)
\W "\\W" 代表不可用于辨別符的字元
\p{Lower} \\p{Lower} 代表小寫字母{a~z}
\p{Upper} \\p{Upper} 代表大寫字母{A~Z}
\p{ASCII} \\p{ASCII} ASCII字元
\p{Alpha} \\p{Alpha} 字母字元
\p{Digit} \\p{Digit} 十進制數字
\p{Alnum} \\p{Alnum} 數字或字母字元
\p{Punct} \\p{Punct} 标點符号
\p{Graph} \\p{Graph} 可見字元
\p{Print} \\p{Print} 可列印字元
\p{Blank} \\p{Blank} 空格或制表符
\p{Cntrl} \\p{Cntrl} 控制字元

資料來源:《Java從入門到精通》,清華大學出版社,2019年10月第1版