sklearn 基础教程

sklearn 特征工程

sklearn 基础教程

sklearn 分类算法

sklearn 回归算法

sklearn 笔记

sklearn(scikit-learn)的 TfidfVectorizer 对象如何保存即持久化后续复用

sklearn(scikit-learn)笔记 sklearn(scikit-learn)笔记


sklearn(scikit-learn)的 TfidfVectorizer 对象通过大量文档通过分词,再基于 tf-idf 矩阵化(向量化)后,想要保存该对象以便后续重用,本质上该对象持久化主要是针对 vocabulary_ 词汇量表(词条索引映射内容)及 idf_ 每个词条的 idf 值两个属性的保存。

pickle(推荐)

用 python 自带的序列化模块 pickle 即可,具体如下:

import pickle

pickle.dump(vectorizer, open("vectorizer.pickle", "wb"))

这是保存操作。

加载复用调用 load 函数,示例如下:

vectorizer = pickle.load(open("vectorizer.pickle", "rb"))

joblib

也可以利用 joblib,保存与加载操作如下:

import joblib

# 保存操作
joblib.dump(vectorizer, 'vectroizer.pkl')

# 加载操作
vectorizer = joblib.load('vectorizer.pkl')