Java 基础教程

Java 面向对象

Java 高级教程

Java 笔记

Java 笔记

Java FAQ

Java FAQ

本文链接：https://www.knowledgedict.com/tutorial/java-extract-text-from-html.html

java 从 html 标签中提取内容（非正则的方式）

Java 笔记

通过 java 如何从类似 html 标签中，提取相应的内容，除了正则表达式的方式，还有哪些比较好的解决方法？

1推荐方案

推荐方案

可以使用针对 Java 的 HTML 解析器 Jsoup，它可直接解析某个 URL 地址、HTML 文本内容，提供了一套非常省力的 API，可通过 DOM，CSS 以及类似于 jQuery 的操作方法来取出和操作数据。

假设我要提取类似如下内容中，em 标签的内容，具体示例如下：

String str = "中国空间站：<em>天宫</em>核心舱<em>天和</em>发射，中国永久性空间站迈出第一步";

提取 em 标签之间的内容代码如下：

Document doc = Jsoup.parse(str);
if (doc != null) {
    //  提取多个
    List<String> eachText = doc.select("em").eachText();
    //  提取单个
    String text = doc.select("em").text();
}

python 过滤去掉 html 中的 tag 标签并提取文本内容的几种方法

python 中，如果想从带有 html 中的富文本内容中，提取文本有很多种方法。 ...

django 模板过滤器 truncatechars_html 截断包含 HTML 标签的文本内容详解，使用方法及示例

在Django模板中，truncatechars_html是一个内置的模板过滤器，用于截断包含HTML标签的文本内容。常见的使用场景包括：新 ...

django获取html中表格内容

在Django中，获取HTML中表单内容的方式主要有两种：GET和POST方法。首先，在Django中，我们仍然需要定义一个包含表单的HTM ...

django verbatim 模版标签忽略标签中的内容详解，使用方法及示例

在Django中，verbatim是一个模板标签，其主要作用是让Django模板系统忽略标签中的内容，直接原样输出内容，不进行任何解析。它的 ...

java 打印输出数组内容的几种方式

当我们对 java 对象数组进行打印的时候，会遇到输出内容是 className + '@' + 16 进制的 hashcode 组成的字符 ...