java 清除 HTML标簽格式、CSS 樣式
JAVA代碼可以這樣寫:
public static String delTagsFContent(String content){
String strHtml="";//HTML文本代碼
String strClear=strHtml.replaceAll( ".*?<body.*?>(.*?)<\\/body>", "$1"); //讀出body内裡所有内容
strClear=strClear.replaceAll("</?[^/?(br)|(p)][^><]*>","");//保留br标簽和p标簽
system.out.println(strClear);//輸出結果
}
如果要保留IMG标簽的話,正規表達式就是:</?[^/?(img)][^><]*>
如果想保留更多的标簽,隻在正規表達式改一下就可以了, </?[^/?(img)|(p)][^><]*> 這個保留(這裡寫的保留了img,p這兩個标簽)你指定的标簽,其他的(包括font)全去掉, 如果你還有其他的标簽想保留,直接在裡面加一個 |(xxx)就行了
想去掉所有的标簽的話正規表達式為:</?[a-zA-Z]+[^><]*>