Java正規表達式入門

衆所周知，在程式開發中，難免會遇到需要比對、查找、替換、判斷字元串的情況發生，而這些情況有時又比較複雜，如果用純編碼方式解決，往往會浪費程式員的時間及精力。是以，學習及使用正規表達式，便成了解決這一沖突的主要手段。

大家都知道，正規表達式是一種可以用于模式比對和替換的規範，一個正規表達式就是由普通的字元（例如字元a到z）以及特殊字元（元字元）組成的文字模式，它用以描述在查找文字主體時待比對的一個或多個字元串。正規表達式作為一個模闆，将某個字元模式與所搜尋的字元串進行比對。

自從jdk1.4推出java.util.regex包，就為我們提供了很好的JAVA正規表達式應用平台。

因為正規表達式是一個很龐雜的體系，是以我僅例舉些入門的概念，更多的請參閱相關書籍及自行摸索。

\\ 反斜杠

\t 間隔 ('\u0009')

\n 換行 ('\u000A')

\r 回車 ('\u000D')

\d 數字等價于[0-9]

\D 非數字等價于[^0-9]

\s 空白符号 [\t\n\x0B\f\r]

\S 非空白符号 [^\t\n\x0B\f\r]

\w 單獨字元 [a-zA-Z_0-9]

\W 非單獨字元 [^a-zA-Z_0-9]

\f 換頁符

\e Escape

\b 一個單詞的邊界

\B 一個非單詞的邊界

\G 前一個比對的結束

^為限制開頭

^java 條件限制為以Java為開頭字元

$為限制結尾

java$ 條件限制為以java為結尾字元

. 條件限制除\n以外任意一個單獨字元

java.. 條件限制為java後除換行外任意兩個字元

加入特定限制條件「[]」

[a-z] 條件限制在小寫a to z範圍中一個字元

[A-Z] 條件限制在大寫A to Z範圍中一個字元

[a-zA-Z] 條件限制在小寫a to z或大寫A to Z範圍中一個字元

[0-9] 條件限制在小寫0 to 9範圍中一個字元

[0-9a-z] 條件限制在小寫0 to 9或a to z範圍中一個字元

[0-9[a-z]] 條件限制在小寫0 to 9或a to z範圍中一個字元(交集)

[]中加入^後加再次限制條件「[^]」

[^a-z] 條件限制在非小寫a to z範圍中一個字元

[^A-Z] 條件限制在非大寫A to Z範圍中一個字元

[^a-zA-Z] 條件限制在非小寫a to z或大寫A to Z範圍中一個字元

[^0-9] 條件限制在非小寫0 to 9範圍中一個字元

[^0-9a-z] 條件限制在非小寫0 to 9或a to z範圍中一個字元

[^0-9[a-z]] 條件限制在非小寫0 to 9或a to z範圍中一個字元(交集)

在限制條件為特定字元出現0次以上時，可以使用「*」

J* 0個以上J

.* 0個以上任意字元

J.*D J與D之間0個以上任意字元

在限制條件為特定字元出現1次以上時，可以使用「+」

J+ 1個以上J

.+ 1個以上任意字元

J.+D J與D之間1個以上任意字元

在限制條件為特定字元出現有0或1次以上時，可以使用「?」

JA? J或者JA出現

限制為連續出現指定次數字元「{a}」

J{2} JJ

J{3} JJJ

文字a個以上，并且「{a,}」

J{3,} JJJ,JJJJ,JJJJJ,???(3次以上J并存)

文字個以上，b個以下「{a,b}」

J{3,5} JJJ或JJJJ或JJJJJ

兩者取一「|」

J|A J或A

Java|Hello Java或Hello

「()」中規定一個組合類型

比如，我查詢<a href=\"index.html\">index</a>中<a href></a>間的資料，可寫作<a.*href=\".*\">(.+?)</a>

在使用Pattern.compile函數時，可以加入控制正規表達式的比對行為的參數：

Pattern Pattern.compile(String regex, int flag)

flag的取值範圍如下：

Pattern.CANON_EQ 當且僅當兩個字元的"正規分解(canonical decomposition)"都完全相同的情況下，才認定比對。比如用了這個标志之後，表達式"a\u030A"會比對"?"。預設情況下，不考慮"規範相等性(canonical equivalence)"。

Pattern.CASE_INSENSITIVE(?i) 預設情況下，大小寫不明感的比對隻适用于US-ASCII字元集。這個标志能讓表達式忽略大小寫進行比對。要想對Unicode字元進行大小不明感的匹配，隻要将UNICODE_CASE與這個标志合起來就行了。

Pattern.COMMENTS(?x) 在這種模式下，比對時會忽略(正規表達式裡的)空格字元(譯者注：不是指表達式裡的"\\s"，而是指表達式裡的空格，tab，回車之類)。注釋從#開始，一直到這行結束。可以通過嵌入式的标志來啟用Unix行模式。

Pattern.DOTALL(?s) 在這種模式下，表達式'.'可以比對任意字元，包括表示一行的結束符。預設情況下，表達式'.'不比對行的結束符。

Pattern.MULTILINE

(?m) 在這種模式下，'^'和'$'分别比對一行的開始和結束。此外，'^'仍然比對字元串的開始，'$'也比對字元串的結束。預設情況下，這兩個表達式僅僅比對字元串的開始和結束。

Pattern.UNICODE_CASE

(?u) 在這個模式下，如果你還啟用了CASE_INSENSITIVE标志，那麼它會對Unicode字元進行大小寫不明感的比對。預設情況下，大小寫不敏感的比對隻适用于US-ASCII字元集。

Pattern.UNIX_LINES(?d) 在這個模式下，隻有'\n'才被認作一行的中止，并且與'.'，'^'，以及'$'進行比對。

抛開空泛的概念，下面寫出幾個簡單的Java正則用例：

◆比如，在字元串包含驗證時

//查找以Java開頭,任意結尾的字元串

Pattern pattern = Pattern.compile("^Java.*");

Matcher matcher = pattern.matcher("Java不是人");

boolean b= matcher.matches();

//當條件滿足時，将傳回true，否則傳回false

System.out.println(b);

◆以多條件分割字元串時

Pattern pattern = Pattern.compile("[, |]+");

String[] strs = pattern.split("Java Hello World Java,Hello,,World|Sun");

for (int i=0;i<strs.length;i++) {

System.out.println(strs[i]);

}

◆文字替換（首次出現字元）

Pattern pattern = Pattern.compile("正規表達式");

Matcher matcher = pattern.matcher("正規表達式 Hello World,正規表達式 Hello World");

//替換第一個符合正則的資料

System.out.println(matcher.replaceFirst("Java"));

◆文字替換（全部）

System.out.println(matcher.replaceAll("Java"));

◆文字替換（置換字元）

Matcher matcher = pattern.matcher("正規表達式 Hello World,正規表達式 Hello World ");

StringBuffer sbr = new StringBuffer();

while (matcher.find()) {

matcher.appendReplacement(sbr, "Java");

}

matcher.appendTail(sbr);

System.out.println(sbr.toString());

◆驗證是否為郵箱位址

String str="[email][email protected][/email]";

Pattern pattern = Pattern.compile("[\\w\\.\\-]+@([\\w\\-]+\\.)+[\\w\\-]+",Pattern.CASE_INSENSITIVE);

Matcher matcher = pattern.matcher(str);

System.out.println(matcher.matches());

◆去除html标記

Pattern pattern = Pattern.compile("<.+?>", Pattern.DOTALL);

Matcher matcher = pattern.matcher("<a href=\"index.html\">首頁</a>");

String string = matcher.replaceAll("");

System.out.println(string);

◆查找html中對應條件字元串

Pattern pattern = Pattern.compile("href=\"(.+?)\"");

if(matcher.find())

System.out.println(matcher.group(1));

◆截取http://位址

//截取url

Pattern pattern = Pattern.compile("(http://|https://){1}[\\w\\.\\-/:]+");

Matcher matcher = pattern.matcher("dsdsds<[url]http://dsds//gfgffdfd>fdf[/url]");

StringBuffer buffer = new StringBuffer();

while(matcher.find()){

buffer.append(matcher.group());

buffer.append("\r\n");

System.out.println(buffer.toString());

◆替換指定{}中文字

String str = "Java目前的發展史是由{0}年-{1}年";

String[][] object={new String[]{"\\{0\\}","1995"},new String[]{"\\{1\\}","2007"}};

System.out.println(replace(str,object));

public static String replace(final String sourceString,Object[] object) {

String temp=sourceString;

for(int i=0;i<object.length;i++){

String[] result=(String[])object[i];

Pattern pattern = Pattern.compile(result[0]);

Matcher matcher = pattern.matcher(temp);

temp=matcher.replaceAll(result[1]);

}

return temp;

◆以正則條件查詢指定目錄下檔案

//用于緩存檔案清單

private ArrayList files = new ArrayList();

//用于承載檔案路徑

private String _path;

//用于承載未合并的正則公式

private String _regexp;

class MyFileFilter implements FileFilter {

/**

* 比對檔案名稱

public boolean accept(File file) {

try {

Pattern pattern = Pattern.compile(_regexp);

Matcher match = pattern.matcher(file.getName());

return match.matches();

} catch (Exception e) {

return true;

}

/**

* 解析輸入流

* @param inputs

FilesAnalyze (String path,String regexp){

getFileName(path,regexp);

}

* 分析檔案名并加入files

* @param input

private void getFileName(String path,String regexp) {

//目錄

_path=path;

_regexp=regexp;

File directory = new File(_path);

File[] filesFile = directory.listFiles(new MyFileFilter());

if (filesFile == null) return;

for (int j = 0; j < filesFile.length; j++) {

files.add(filesFile[j]);

return;

* 顯示輸出資訊

* @param out

public void print (PrintStream out) {

Iterator elements = files.iterator();

while (elements.hasNext()) {

File file=(File) elements.next();

out.println(file.getPath());

public static void output(String path,String regexp) {

FilesAnalyze fileGroup1 = new FilesAnalyze(path,regexp);

fileGroup1.print(System.out);

public static void main (String[] args) {

output("C:\\","[A-z|.]*");

Java正則的功用還有很多，事實上隻要是字元處理，就沒有正則做不到的事情存在。（當然，正則解釋時較耗時間就是了|||……）

本文轉自 cping 51CTO部落格，原文連結:http://blog.51cto.com/cping1982/130175

Java正規表達式入門

繼續閱讀

nginx location中斜線的位置的重要性

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的簡單使用

android 主線程的相關問題

neo4j之cypher使用文檔

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

mybatis_入門程式Mybatis入門

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

面試題解析：你接口測試是怎麼做的？

Effective Java 8:通用程式設計

OOM三種類型

工廠模式-三種類型

【遞歸】高效率求2的n次幂

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method