天天看點

java 清除 HTML标簽格式、CSS 樣式

 java 清除 HTML标簽格式、CSS 樣式

JAVA代碼可以這樣寫:

public static String delTagsFContent(String content){
		
		String strHtml="";//HTML文本代碼
		String strClear=strHtml.replaceAll( ".*?<body.*?>(.*?)<\\/body>", "$1"); //讀出body内裡所有内容
		strClear=strClear.replaceAll("</?[^/?(br)|(p)][^><]*>","");//保留br标簽和p标簽
		system.out.println(strClear);//輸出結果
}
           

如果要保留IMG标簽的話,正規表達式就是:</?[^/?(img)][^><]*> 

如果想保留更多的标簽,隻在正規表達式改一下就可以了,  </?[^/?(img)|(p)][^><]*>   這個保留(這裡寫的保留了img,p這兩個标簽)你指定的标簽,其他的(包括font)全去掉, 如果你還有其他的标簽想保留,直接在裡面加一個 |(xxx)就行了

想去掉所有的标簽的話正規表達式為:</?[a-zA-Z]+[^><]*>

下一篇: JSTL标簽整理