Spark 教程

Spark SQL

Spark 笔记

Spark MLlib

original icon
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.knowledgedict.com/tutorial/spark-pyspark-dataframe-remove-all-space-in-string-column.html

pyspark dataframe 字符串类型字段/列 去除/去掉/删除 所有的空格

Spark DataFrame 原理及操作详解 Spark DataFrame 原理及操作详解


pyspark dataframe 字符串类型的某列如何去除所有的空格字符?

推荐方式

利用 spark dataframe 的 functions 包的 regexp_replace 函数即可搞定,示例如下:

from pyspark.sql.functions import regexp_replace

df = df.withColumn('query', regexp_replace('query', ' ', ''))

上述示例对 dataframe 的 query 列的字符串做首尾空格去除操作,完整示例代码如下:

from pyspark.sql import SparkSession
from pyspark.sql.functions import regexp_replace

spark_session = SparkSession.builder \
    .appName('knowledgedict-dataframe') \
    .master('local') \
    .getOrCreate()

df = spark_session.createDataFrame(
    schema=['query', 'content'],
    data=[
        (' bei  jing ', ['product']),
        ('  tian jin ', ['product', 'article']),
        (' shanghai ', ['article', 'person'])
    ]
)

df.show()

df = df.withColumn('query', regexp_replace('query', ' ', ''))
df.show()
pyspark dataframe 字符串类型的某列如何去除首尾的空格字符? ...
使用 jackson 库时,报 java.lang.NoClassDefFoundError: com/fasterxml/jackson/ ...
以下是这三种方式:###方法一:使用String的replaceAll方法这是一种简单的方法,使用Java内置的字符串替换方法来移除所有空格 ...
###方式一:使用String的matches方法这是最简单的一种方式,适用于简单的正则表达式匹配。示例代码(Maven依赖):示例代码:# ...