机器学习基础教程

机器学习集成学习

机器学习笔记

机器学习笔记

本文链接：https://www.knowledgedict.com/tutorial/ml-xgboost-feature-names-mismatch.html

python xgboost 关于 ValueError: feature_names mismatch 及 training data did not have the following fields 错误的解决方法

在使用 xgboost 训练数据和检验模型时，如果测试集的特征最大编号数大于训练集的特征最大编号数，在测试时，会报 ValueError: feature_names mismatch 和 training data did not have the following fields 错误。

1具体报错信息
2解决问题方法

2.1libsvm 样本都追加最大特征编号

具体报错信息

Traceback (most recent call last):
  File "/xxx/xxx/.../xxx.py", line 65, in <module>
    y_pred = model.predict(dtest, ntree_limit=model.best_ntree_limit)
  File "/xxx/xxx/.../venv/lib/python3.8/site-packages/xgboost/core.py", line 1055, in predict
    self._validate_features(data)
  File "/xxx/xxx/.../venv/lib/python3.8/site-packages/xgboost/core.py", line 1312, in _validate_features
    raise ValueError(msg.format(self.feature_names,
ValueError: feature_names mismatch: ['f0', 'f1', 'f2', 'f3', 'f4', ..., ...]
training data did not have the following fields: f10122, f10630, ..., ...

解决问题方法

解决问题的核心思路是，XGBoost 的训练数据和测试数据，要保证两者的特征数一样，即特征编号的最大值一致。

具体解决方法笔者梳理了一种方法。

libsvm 样本都追加最大特征编号

假设通过训练大概知道特征的个数量级，那边在 libsvm 样本最后添加最大特征编号对应的特征值，如下：

0	1258:1 5856:1 2:1 5857:1 4:0 5:2 6:5 7:1 8:1 9:0.18935823583683 10:5.752572638825633 20000:0
0	107:1 5858:1 43:1 5859:1 4:0 5:22 6:1 7:1 8:1 9:0.16732928491179 10:5.476463551931511 20000:0
0	41:1 5860:1 13:1 4859:1 4:0 5:17 6:3 7:1 8:1 9:0.21670740100451 10:6.955592608396297 20000:0
1	11:1 5861:1 13:1 751:1 4:0 5:15 6:0 7:1 8:1 9:0.33720442665852 10:8.996280439395015 20000:0
...

假设最大特征编号不会超过 20000，那在样本末尾追加 20000:0，包括训练集和测试集。

xgboost 加载模型导致 AssertError:read can not have position excceed buffer length 错误的原因及解决方法

xgboost 加载模型时，出现 AssertError:read can not have position excceed buffer ...

python pandas 读取 csv 文件报 pandas.errors.ParserError: Error tokenizing data. C error: Expected 9 fields in line 73, saw 10 错误

使用 pandas，调用 pd.read_csv 函数读取 csv 文件时，若读取基于分隔符的内容不对时，报类似 pandas.errors ...

java jstack jmap 等工具命令报错 Unable to open socket file: target process not responding or HotSpot VM not loaded

使用 java jstack jmap 等命令工具查看 java 进程信息时，会报错 Unable to open socket file: ...

pip install pickle 安装 pickle 时，报 ERROR: Could not find a version that satisfies the requirement pickle

如果用 pip3 install pickle 命令安装 pickle 时，会报错 ERROR: Could not find a vers ...

python 使用 nltk 时，报错信息 Resource punkt not found 的解决方法

python 使用 nltk 模块进行分词等自然语言处理时，如果没有提前安装 punkt，会报出 Resource punkt not fo ...