regular expression（正規表達式）學習筆記

1、基礎知識

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Test {

	public static void main(String[] args) {
		// 簡單認識正規表達式的概念
		// .表示一個字元
		System.out.println("abc".matches("..."));// 傳回true

		// \d表示數字，在java中\要用\\轉義表示
		// 下面的句子意思是把字元裡含有字元的地方都替換成-，傳回結果為a----a
		System.out.println("a8729a".replaceAll("\\d", "-"));

		// 下面這個例子不像上面那樣直接比對，而用模式的方式，這樣做的好處是
		// 當你在編譯時就把模式準備好了，這樣有利于提高程式速度。
		// 該模式的意思是有a到z的字母，出現三次
		Pattern p = Pattern.compile("[a-z]{3}");
		Matcher m = p.matcher("fgh");// 把比對後的結果儲存在Matcher類中
		System.out.println(m.matches());// 此處Matcher類的matches（）方法傳回比對結果true

		// 上面三句等價于以下直接比對，就是性能上能更好一些。
		System.out.println("fgha".matches("[a-z]{3}"));

		// 初步認識. * + ?
		// Reluctant 數量詞
		// X?? X，一次或一次也沒有
		// X*? X，零次或多次
		// X+? X，一次或多次
		// X{n}? X，恰好 n 次
		// X{n,}? X，至少 n 次
		// X{n,m}? X，至少 n 次，但是不超過 m 次
		System.out.println("+++++++++++++++++++++++++++++++++++++");
		p("a".matches("."));// p()為列印函數，見最後
		p("aa".matches("aa"));
		p("aaaa".matches("a*"));
		p("aaaa".matches("a+"));
		p("".matches("a*"));
		p("aaaa".matches("a?"));
		p("".matches("a?"));
		p("a".matches("a?"));
		p("214523145234532".matches("\\d{3,100}"));
		p("192.168.0.aaa".matches("\\d{1,3}\\.\\d{1,3}\\.\\d{1,3}\\.\\d{1,3}"));
		p("192".matches("[0-2][0-9][0-9]"));
		// 上面\\.就是表示.

		// 範圍
		// 字元類
		// [abc] a、b 或 c（簡單類）
		// [^abc] 任何字元，除了 a、b 或 c（否定）
		// [a-zA-Z] a 到 z 或 A 到 Z，兩頭的字母包括在内（範圍）
		// [a-d[m-p]] a 到 d 或 m 到 p：[a-dm-p]（并集）
		// [a-z&&[def]] d、e 或 f（交集）
		// [a-z&&[^bc]] a 到 z，除了 b 和 c：[ad-z]（減去）
		// [a-z&&[^m-p]] a 到 z，而非 m 到 p：[a-lq-z]（減去）
		System.out.println("+++++++++++++++++++++++++++++++++++++");
		p("a".matches("[abc]"));
		p("a".matches("[^abc]"));
		p("A".matches("[a-zA-Z]"));
		p("A".matches("[a-z]|[A-Z]"));
		p("A".matches("[a-z[A-Z]]"));
		p("R".matches("[A-Z&&[RFG]]"));

		// 認識\s \w \d \
		// 預定義字元類
		// . 任何字元（與行結束符可能比對也可能不比對）
		// \d 數字：[0-9]
		// \D 非數字： [^0-9]
		// \s 空白字元：[ \t\n\x0B\f\r]
		// \S 非空白字元：[^\s]
		// \w 單詞字元：[a-zA-Z_0-9]
		// \W 非單詞字元：[^\w]

		System.out.println("+++++++++++++++++++++++++++++++++++++");
		p(" \n\r\t".matches("\\s{4}"));
		p(" ".matches("\\S"));
		p("a_8".matches("\\w{3}"));
		p("abc888&^%".matches("[a-z]{1,3}\\d+[&^#%]+"));
		p("\\".matches("\\\\"));// 在java中\需要用轉義字元\\表示，此處要比對一個\,需要用\\\\的模式來比對。

		// POSIX 字元類（僅 US-ASCII） POSIX 來比對的寫法，用的不多
		// \p{Lower} 小寫字母字元：[a-z]
		// \p{Upper} 大寫字母字元：[A-Z]
		// \p{ASCII} 所有 ASCII：[\x00-\x7F]
		// \p{Alpha} 字母字元：[\p{Lower}\p{Upper}]
		// \p{Digit} 十進制數字：[0-9]
		// \p{Alnum} 字母數字字元：[\p{Alpha}\p{Digit}]
		// \p{Punct} 标點符号：!"#$%&'()*+,-./:;<=>[email protected][\]^_`{|}~
		// \p{Graph} 可見字元：[\p{Alnum}\p{Punct}]
		// \p{Print} 可列印字元：[\p{Graph}\x20]
		// \p{Blank} 空格或制表符：[ \t]
		// \p{Cntrl} 控制字元：[\x00-\x1F\x7F]
		// \p{XDigit} 十六進制數字：[0-9a-fA-F]
		// \p{Space} 空白字元：[ \t\n\x0B\f\r]
		System.out.println("+++++++++++++++++++++++++++++++++++++");
		// POSIX Style
		p("a".matches("\\p{Lower}"));

		// 邊界比對器
		// ^ 行的開頭
		// $ 行的結尾
		// \b 單詞邊界
		// \B 非單詞邊界
		// \A 輸入的開頭
		// \G 上一個比對的結尾
		// \Z 輸入的結尾，僅用于最後的結束符（如果有的話）
		// \z 輸入的結尾

		// boundary 邊界比對
		System.out.println("+++++++++++++++++++++++++++++++++++++");
		p("hello sir".matches("^h.*"));
		p("hello sir".matches(".*ir$"));
		p("hello sir".matches("^h[a-z]{1,3}o\\b.*"));
		p("hellosir".matches("^h[a-z]{1,3}o\\b.*"));

		// whilte lines 空白行
		System.out.println("+++++++++++++++++++++++++++++++++++++");
		p(" \n".matches("^[\\s&&[^\\n]]*\\n$"));

		// email位址
		System.out.println("+++++++++++++++++++++++++++++++++++++");
		p("[email protected]".matches("[\\w[.-]][email protected][\\w[.-]]+\\.[\\w]+"));

		// matches find lookingAt
		System.out.println("+++++++++++++++++++++++++++++++++++++");
		Pattern p2 = Pattern.compile("\\d{3,5}");
		String s = "123-34345-234-00";
		Matcher m2 = p2.matcher(s);
		p(m2.matches());// 比對整個
		m2.reset();
		p(m2.find());// 發現有沒有比對的字元，并截取
		p(m2.start() + "-" + m.end());// 相比對的起始位置和結束位置（必須能找到情況下）
		p(m2.find());
		p(m2.start() + "-" + m.end());
		p(m2.find());
		p(m2.start() + "-" + m.end());
		p(m2.find());
		// p(m2.start() + "-" + m.end());
		p(m2.lookingAt());// 發現有沒有比對的字元，不截取
		p(m2.lookingAt());
		p(m2.lookingAt());
		p(m2.lookingAt());

		// replacement
		System.out.println("+++++++++++++++++++++++++++++++++++++");
		Pattern p3 = Pattern.compile("java", Pattern.CASE_INSENSITIVE);// 忽略大小寫Pattern.CASE_INSENSITIVE
		Matcher m3 = p3
				.matcher("java Java JAVa JaVa IloveJAVA you hateJava afasdfasdf");
		StringBuffer buf = new StringBuffer();
		int i = 0;
		while (m3.find()) {
			i++;
			if (i % 2 == 0) {// 偶數位置java替換成小寫
				m3.appendReplacement(buf, "java");
			} else {// 偶數位置java替換成大寫
				m3.appendReplacement(buf, "JAVA");
			}
		}
		// 加上尾巴
		m3.appendTail(buf);
		p(buf);

		// group
		System.out.println("+++++++++++++++++++++++++++++++++++++");
		Pattern p4 = Pattern.compile("(\\d{3,5})([a-z]{2})");
		String s4 = "123aa-34345bb-234cc-00";
		Matcher m4 = p4.matcher(s4);
		while (m.find()) {
			p(m4.group(1));
		}// p(m4.group(1));将列印第一個小括号比對的模式結果
		// 為123 34345 234
		// p(m4.group(2));将列印第一個小括号比對的模式結果為aa bb cc
		// p(m4.group());将列印總的模式結果為123aa 34345bb 234cc

		// 以下三種情況（了解即可），不多用！
		// Greedy 數量詞 (貪婪的）)
		// X? X，一次或一次也沒有
		// X* X，零次或多次
		// X+ X，一次或多次
		// X{n} X，恰好 n 次
		// X{n,} X，至少 n 次
		// X{n,m} X，至少 n 次，但是不超過 m 次
		//		   
		// Reluctant 數量詞 （不情願的）
		// X?? X，一次或一次也沒有
		// X*? X，零次或多次
		// X+? X，一次或多次
		// X{n}? X，恰好 n 次
		// X{n,}? X，至少 n 次
		// X{n,m}? X，至少 n 次，但是不超過 m 次
		//		   
		// Possessive 數量詞 （獨占的）
		// X?+ X，一次或一次也沒有
		// X*+ X，零次或多次
		// X++ X，一次或多次
		// X{n}+ X，恰好 n 次
		// X{n,}+ X，至少 n 次
		// X{n,m}+ X，至少 n 次，但是不超過 m 次

		// 使用Greedy 數量詞 (貪婪的）)(以下3-10個的話，它會先去比對10，比對不上依次減少，一比對上就結束)
		System.out.println("+++++++++++++++++++++++++++++++++++++");
		Pattern p6 = Pattern.compile(".{3,10}[0-9]");
		String s6 = "aaaa5bbbb68";
		Matcher m6 = p6.matcher(s6);
		if (m6.find())
			p(m6.start() + "-" + m6.end());
		else
			p("not match!");

		// 使用 Reluctant 數量詞 （不情願的）(以下3-10個的話，它會先去比對3，比對不上依次增加，一比對上就結束 )
		Pattern p7 = Pattern.compile(".{3,10}?[0-9]");
		String s7 = "aaaa5bbbb68";
		Matcher m7 = p7.matcher(s7);
		if (m7.find())
			p(m7.start() + "-" + m7.end());
		else
			p("not match!");

		System.out.println("+++++++++++++++++++++++++++++++++++++");
		// 使用 Possessive 數量詞（了解即可）
		// （獨占的）(以下3-10個的話，它會先去比對10，比對不上就把這十個先删掉再比對下一個10個，一比對上就結束)
		Pattern p8 = Pattern.compile(".{3,10}?[0-9]");
		String s8 = "aaaa5bbbb68";
		Matcher m8 = p8.matcher(s8);
		if (m8.find())
			p(m8.start() + "-" + m8.end());
		else
			p("not match!");

		// non-capturing groups（非捕獲）下文.{3}(?=a)表示以a結尾的三個數字（了解即可）
		System.out.println("+++++++++++++++++++++++++++++++++++++");
		Pattern p9 = Pattern.compile(".{3}(?=a)");
		String s9 = "444a66b";
		Matcher m9 = p9.matcher(s9);
		while (m9.find()) {
			p(m9.group());
		}

		// back refenrences
		// 比對的後的兩個組需要一樣（了解即可）
		System.out.println("+++++++++++++++++++++++++++++++++++++");
		Pattern p10 = Pattern.compile("(\\d\\d)\\1");
		String s10 = "1212";
		Matcher m10 = p10.matcher(s10);
		p(m10.matches());

		// flags的簡寫
		// Pattern p = Pattern.compile("java", Pattern.CASE_INSENSITIVE);
		// 上面的句子簡寫（了解即可）
		System.out.println("+++++++++++++++++++++++++++++++++++++");
		p("Java".matches("(?i)(java)"));
	}

	public static void p(Object o) {
		System.out.println(o);
	}

}

2、email抓取

import java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.util.regex.Matcher;
import java.util.regex.Pattern;


public class EmailSpider {

	public static void main(String[] args) {
		try {
			BufferedReader br = new BufferedReader(new FileReader("D:\\含郵件位址的.html"));
			String line = "";
			while((line=br.readLine()) != null) {
				parse(line);
			}
		} catch (FileNotFoundException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
	}

	private static void parse(String line) {
		Pattern p = Pattern.compile("[\\w[.-]][email protected][\\w[.-]]+\\.[\\w]+");
		Matcher m = p.matcher(line);
		while(m.find()) {
			System.out.println(m.group());
		}
	}

}

3、代碼量統計

import java.io.BufferedReader;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;

public class CodeCounter {
	
	static long normalLines = 0;
	static long commentLines = 0;
	static long whiteLines = 0;
	
	public static void main(String[] args) {
		File f = new File("D:\\src");
		File[] codeFiles = f.listFiles();
		for(File child : codeFiles){
			if(child.getName().matches(".*\\.java$")) {
				parse(child);
			}
		}
		
		System.out.println("normalLines:" + normalLines);
		System.out.println("commentLines:" + commentLines);
		System.out.println("whiteLines:" + whiteLines);
		
	}

	private static void parse(File f) {
		BufferedReader br = null;
		boolean comment = false;
		try {
			br = new BufferedReader(new FileReader(f));
			String line = "";
			while((line = br.readLine()) != null) {
				line = line.trim();
				if(line.matches("^[\\s&&[^\\n]]*$")) {
					whiteLines ++;
				} else if (line.startsWith("/*") && !line.endsWith("*/")) {
					commentLines ++;
					comment = true;	
				} else if (line.startsWith("/*") && line.endsWith("*/")) {
					commentLines ++;
				} else if (true == comment) {
					commentLines ++;
					if(line.endsWith("*/")) {
						comment = false;
					}
				} else if (line.startsWith("//")) {
					commentLines ++;
				} else {
					normalLines ++;
				}
			}
		} catch (FileNotFoundException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		} finally {
			if(br != null) {
				try {
					br.close();
					br = null;
				} catch (IOException e) {
					e.printStackTrace();
				}
			}
		}
	}

}

regular expression（正規表達式）學習筆記

繼續閱讀

關于Gradle配置的小結

Java小案例——随機數猜測随機數猜測

nginx location中斜線的位置的重要性

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的簡單使用

neo4j之cypher使用文檔

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

mybatis_入門程式Mybatis入門

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

Effective Java 8:通用程式設計

OOM三種類型

工廠模式-三種類型

【遞歸】高效率求2的n次幂

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method