Java正規表達式 url和email并進行分割

2023-05-21 05:22:40

首先說明，本人研一新生，程式設計開發經曆較少，如有不對，還望各位大神多多指教！

最近在做關于英文PDF翻譯為中文PDF的項目。其中，機器翻譯接口不能識别url和Email，需要本地将URL和Email進行提取，之後将内容分割，把非URL和Email送入機器翻譯的接口中。

在識别URL和Email上，我選擇的是正規表達式，其中比對的URL和Email如下：

識别Email ：(-|(\\w)|(\\.))[email protected][a-zA-Z0-9_-]+(\\.[a-zA-Z0-9_-]+)+

識别URL：(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]

具體執行個體代碼如下：

import java.util.regex.Matcher;

import java.util.regex.Pattern;

public boolean url(String url){

Pattern pattern = Pattern.compile("^(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]$");

Matcher matcher = pattern.matcher(url);

if(matcher.find()){

return true;

}

else {

return false;

}

其中\w是比對[a-zA-Z0-9_]，即英文大小寫，數字，和下劃線

補充：.比對除\n以外的任意字元

\s比對包括\n在内的任意字元

好了，介紹完基礎部分，想說一說關于對URL和Email的提取分割，即：

輸入：This is my email [email protected],and if you have something wrong ,please connect me in time.And It's very useful website http://www.csdn.net.

輸出：This is my email

[email protected]

,and if you have something wrong ,please connect me in time.And It's very useful website

http://www.csdn.net.

想要實作以上，首先得清楚Matcher中的group

matcher.group(int index) , index表示第幾個括号，預設值為0，即整個句子内容，1代表第一個括号，matcher.start(int index)和matcher.end(int index)分别表示第index括号内第一個字元的位置，和最後一個字元的位置。

以email為中間，進行分割的代碼如下：

public List<String> regexEmail(String email){

List<String> groups = new ArrayList<String>();

Pattern pattern = Pattern.compile("^(.*)( (-|(\\w)|(\\.))[email protected][a-zA-Z0-9_-]+(\\.[a-zA-Z0-9_-]+)+)(.*)$");

Matcher matcher = pattern.matcher(email);

if(matcher.find()){

int start = matcher.start(2);

int end = matcher.end(2);

groups.add(email.substring(0 , start));

groups.add(email.substring(start, end));

groups.add(email.substring(end , email.length()));

}

return groups;

}

這樣，根據遞歸我們就可以對任意字元串進行url和email的分割，代碼如下：

public void regex(String text){

List<String> temp = new ArrayList<>();

//啥都沒有

if(regexEmail(text).size() == 0 && regexURL(text).size() == 0){

ans.add(text);

}

//隻有email

else if (regexEmail(text).size() > 0 && regexURL(text).size() == 0) {

temp = regexEmail(text);

ans.add(temp.get(2));

ans.add(temp.get(1));

regex(temp.get(0));

}

//隻有url

else if (regexEmail(text).size() == 0 && regexURL(text).size() > 0){

temp = regexURL(text);

ans.add(temp.get(2));

ans.add(temp.get(1));

regex(temp.get(0));

}

//email和url都有

else {

temp = regexEmail(text);

regex(temp.get(2));

ans.add(temp.get(1));

regex(temp.get(0));

}

Java正規表達式 url和email并進行分割

繼續閱讀

關于Gradle配置的小結

Java小案例——随機數猜測随機數猜測

nginx location中斜線的位置的重要性

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的簡單使用

neo4j之cypher使用文檔

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

mybatis_入門程式Mybatis入門

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

Effective Java 8:通用程式設計

OOM三種類型

工廠模式-三種類型

【遞歸】高效率求2的n次幂

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method