Java 基础教程

Java 面向对象

Java 高级教程

Java 笔记

Java 如何利用正则表达式提取两个指定标记符号之间的字符串内容

Java 笔记 Java 笔记


Java 开发中,我们往往需要从非结构化的文本数据中截取两个特定字符之间的内容,可以利用正则表达式获取其间信息。

解决方法

将正则表达式用 Pattern 类的静态方法 compile 一个对象,该对象可以全局复用,线程安全,具体示例如下:

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class MatchAnythingBetweenTwoCharacterDemo {

    //  正则表达式
    private static final Pattern PATTERN_BETWEEN_TWO_CHARACTER = Pattern.compile("\\((.*?)\\:");

    //  线程安全的方法,抽取其间文案
    public static String matchBetweenTwoCharacter(String input) {
        Matcher matcher = PATTERN_BETWEEN_TWO_CHARACTER.matcher(input);
        if (matcher.find()) {
            return matcher.group(1);
        }

        return null;
    }

    public static void main(String... args) {
        //  想要提取 ( 和 : 之间的 title 字段
        System.out.println(matchBetweenTwoCharacter("weight(title:BiLSTM in 55393) [PerFieldSimilarity], result of:"));
    }

}

上述正则表达式中的最内层 (.*?) 表示要匹配的其间文案,左右两边表示两个指定的字符标志。