NLP 教程

NLP 工具库

NLP 神经网络

NLP 笔记

original icon
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.knowledgedict.com/tutorial/nlp-python-fetch-word-from-chinese-english-text.html

python 切分中英文混合文本(中文按每个字分隔,英文以单词分开,数字以空格分开)

NLP 笔记 NLP 笔记


在 nlp 文本预处理中,经常需要将文本内容先按照每个字,随机初始化向量,这就需要我们对文本进行按字提取,主要是中文按每个字提取,英文按每个单词提取、数字按照空格分开提取、特殊符号每个提取等。针对中英文混合的文本提取,笔者基于正则表达式封装了如下函数。

基于正则的提取函数

def fetch_word(ipt):
    lst = []
    #   输入小写化
    s = ipt.lower()
    while len(s) > 0:
        #   提取头部的英文匹配
        match = re.match(r'[a-z]+', s)
        if match:
            word = match.group(0)
        else:
            #   若非英文单词,直接获取第一个字符
            word = s[0:1]
        lst.append(word)
        #   从文本中去掉提取的 word,并去除文本收尾的空格字符
        s = s.replace(word, '', 1).strip(' ')
    return lst

 

关于 es(Elasticsearch)如何将通过 api 返回的信息以指定的列名和升降序方式返回,可以将要排序的列名赋给参数 s,若要降序 ...
###方法1:使用自定义排序函数这是最基本的方法,您可以编写一个自定义排序函数,然后将其传递给Python的`sorted`函数进行排序。# ...
在Django中,endswith是一种字段条件查询,用于在查询数据库时筛选以特定后缀结尾的字段值。使用场景endswith适用于各种场景, ...
在Django中,iendswith是一个字段条件查询方法,用于在数据库查询中执行不区分大小写的以指定字符串结尾的条件过滤。例如,在用户管理 ...
在Django模板中,过滤器(Filter)是一种特殊的语法,用于对变量进行处理和格式化。作用title过滤器的作用是将字符串的每个单词的首 ...