PyTorch 数据集（dataset）详解

当使用 PyTorch 进行深度学习任务时，数据集（dataset）是一个关键的组成部分。数据集负责加载、预处理和管理训练、验证和测试数据。

1定义

1.1PyTorch 的数据集

2数据集加载
3数据集处理

3.1数据变换
3.2数据集分割

4数据加载器
5常见数据集

5.1MNIST
5.2CIFAR-10
5.3CIFAR-100
5.4ImageNet
5.5Fashion-MNIST
5.6SVHN（Street View House Numbers）
5.7Penn Treebank（PTB）
5.8IMDB Movie Reviews
5.9Pascal VOC
5.10COCO（Common Objects in Context）

定义

数据集是一个抽象概念，它表示一组数据样本，每个样本包含输入数据和相关的标签（或目标）。在深度学习中，输入数据通常是模型的训练数据，而标签则是用于指导模型学习的目标。数据集可以包含各种类型的数据，例如图像、文本、声音等。

PyTorch 的数据集

PyTorch 提供了 torch.utils.data.Dataset 类作为数据集的基类，你可以通过继承这个类来创建自定义的数据集。

数据集类必须实现两个主要方法：

__len__ 方法用于返回数据集的长度（即包含多少个样本）。
__getitem__ 方法用于通过索引获取单个样本。这些方法允许你迭代数据集并按需加载数据。

数据集加载

在 PyTorch 中，你可以使用 torch.utils.data 模块来加载数据集。最常用的数据集类是 Dataset，它是一个抽象类，需要你自定义实现数据集加载的方法。

以下是一个简单的示例，说明如何创建一个自定义的数据集来加载图像数据：

import os
from PIL import Image
import torch
from torch.utils.data import Dataset

class CustomDataset(Dataset):
    def __init__(self, data_dir, transform=None):
        """
        初始化数据集对象。

        参数：
        - data_dir (str): 包含图像文件的目录。
        - transform (callable, optional): 可选的数据预处理函数。
        """
        self.data_dir = data_dir
        self.transform = transform
        self.file_list = os.listdir(data_dir)

    def __len__(self):
        """
        返回数据集的长度。
        """
        return len(self.file_list)

    def __getitem__(self, idx):
        """
        根据索引返回数据集中的一个样本。

        参数：
        - idx (int): 样本的索引。

        返回：
        - sample (dict): 包含图像和标签的字典。
        """
        img_name = os.path.join(self.data_dir, self.file_list[idx])
        image = Image.open(img_name)

        if self.transform:
            image = self.transform(image)

        # 假设你有一个标签文件或其他方式来获取样本标签
        label = self.get_label_for_image(self.file_list[idx])

        sample = {
            'image': image,
            'label': label
        }

        return sample

    def get_label_for_image(self, filename):
        """
        通过文件名获取图像的标签。这是一个示例函数，需要根据你的数据集实际情况自行实现。
        """
        # 这里假设文件名中包含标签信息，可以根据需要进行解析
        # 例如，文件名格式可能为"cat_001.jpg"，其中"cat"是标签
        label = filename.split('_')[0]
        return label

# 定义数据集目录和数据预处理方法
data_dir = "path/to/dataset"
data_transform = transforms.Compose([
    transforms.Resize((128, 128)),
    transforms.ToTensor(),
])

# 创建数据集实例
custom_dataset = CustomDataset(data_dir, transform=data_transform)

# 使用数据加载器加载数据集
data_loader = torch.utils.data.DataLoader(custom_dataset, batch_size=32, shuffle=True)

上述代码中，我们创建了一个 CustomDataset 类，它继承自 Dataset，实现了 __len__ 和 __getitem__ 方法来加载数据。data_loader 用于加载数据集并以指定的批次大小进行分批处理。

数据集处理

数据变换

数据预处理是在将数据送入模型之前对数据进行转换、调整或标准化的过程。在数据集中，你可以通过自定义数据变换函数来定义数据预处理操作。PyTorch 提供了 torchvision.transforms 模块，其中包含了各种常见的数据变换操作，如图像大小调整、标准化等。

数据集分割

通常，你需要将数据集分割成训练集、验证集和测试集。PyTorch 没有直接提供数据集分割的函数，但你可以使用 Python 的切片和索引操作来手动实现分割。

下面是一个简单的示例：

# 假设数据集大小为len(custom_dataset)，我们将其分为训练集、验证集和测试集
train_size = int(0.7 * len(custom_dataset))
val_size = int(0.2 * len(custom_dataset))
test_size = len(custom_dataset) - train_size - val_size

train_dataset, val_dataset, test_dataset = torch.utils.data.random_split(
    custom_dataset, [train_size, val_size, test_size])

# 创建数据加载器
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=32, shuffle=True)
val_loader = torch.utils.data.DataLoader(val_dataset, batch_size=32)
test_loader = torch.utils.data.DataLoader(test_dataset, batch_size=32)

在上述示例中，我们使用 torch.utils.data.random_split 函数将数据集分成训练集、验证集和测试集，然后创建了对应的数据加载器。

数据加载器

DataLoader 是 PyTorch 中一个重要的工具，用于加载和批量处理数据。它允许你有效地迭代数据集，并将数据分成小批次，以便于训练深度学习模型。

以下是一个详细的示例，介绍如何使用 DataLoader 加载数据集：

首先，我们将创建一个自定义数据集类（CustomDataset ），然后使用 DataLoader 来加载和批量处理数据。

import torch
from torch.utils.data import Dataset, DataLoader

# 创建一个自定义数据集类
class CustomDataset(Dataset):
    def __init__(self, data, targets):
        self.data = data
        self.targets = targets

    def __len__(self):
        return len(self.data)

    def __getitem__(self, index):
        data_point = self.data[index]
        target = self.targets[index]
        return data_point, target

# 创建一些示例数据
data = torch.randn(100, 3, 32, 32)  # 100个3通道的32x32图像
targets = torch.randint(0, 10, (100,))  # 100个随机目标类别（0到9）

# 创建数据集实例
custom_dataset = CustomDataset(data, targets)

# 使用 DataLoader 创建数据加载器
batch_size = 16
data_loader = DataLoader(custom_dataset, batch_size=batch_size, shuffle=True)

# 遍历数据加载器以获取批次数据
for batch_data, batch_targets in data_loader:
    # 在这里进行模型训练或其他操作
    print("Batch data shape:", batch_data.shape)
    print("Batch targets:", batch_targets)

在上述示例中，我们首先创建了一个自定义数据集类 CustomDataset，它包含了数据和对应的目标。然后，我们使用 DataLoader 创建了一个数据加载器 data_loader，指定了批量大小为 16，并且打开了数据的随机洗牌（shuffle=True）。

最后，我们遍历了数据加载器，它会在每次迭代中返回一个数据批次，其中包含了 16 个数据点和对应的目标。你可以在循环中进行模型训练、评估或其他操作。

使用 DataLoader 的好处包括批量处理数据、洗牌数据以增加随机性、自动处理数据集长度不均匀等。这使得训练深度学习模型变得更加方便和高效。

常见数据集

PyTorch 社区和官方提供了许多常用的数据集，这些数据集通常用于机器学习和深度学习任务的基准测试和研究。

以下是一些 PyTorch 中可用的常见数据集，以及对每个数据集的简要介绍：

MNIST

数据集类型：图像分类。
内容：包含手写数字 0 到 9 的灰度图像，用于数字识别任务。
使用示例：手写数字识别、图像分类任务。

import torch
from torchvision import datasets, transforms

# 数据预处理
transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))])

# 下载和加载MNIST数据集
train_dataset = datasets.MNIST(root='./data', train=True, transform=transform, download=True)
test_dataset = datasets.MNIST(root='./data', train=False, transform=transform, download=True)

# 创建数据加载器
batch_size = 64
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
test_loader = torch.utils.data.DataLoader(test_dataset, batch_size=batch_size, shuffle=False)

CIFAR-10

数据集类型：图像分类。
内容：包含 10 个类别的彩色图像，每个类别有 6000 张图像。类别包括飞机、汽车、狗、猫等。
使用示例：图像分类、卷积神经网络（CNN）的训练和评估。

import torch
from torchvision import datasets, transforms

# 数据预处理
transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])

# 下载和加载CIFAR-10数据集
train_dataset = datasets.CIFAR10(root='./data', train=True, transform=transform, download=True)
test_dataset = datasets.CIFAR10(root='./data', train=False, transform=transform, download=True)

# 创建数据加载器
batch_size = 64
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
test_loader = torch.utils.data.DataLoader(test_dataset, batch_size=batch_size, shuffle=False)

CIFAR-100

数据集类型：图像分类。
内容：与 CIFAR-10 类似，但包含 100 个不同的类别，每个类别有 600 张图像。
使用示例：细粒度图像分类、迁移学习。

ImageNet

数据集类型：图像分类。
内容：包含数百万张高分辨率图像，分为 1000 个不同的类别。这是一个大型的图像分类挑战数据集。
使用示例：图像分类、迁移学习、深度卷积神经网络训练。

Fashion-MNIST

数据集类型：图像分类。
内容：与 MNIST 类似，但包含了 10 个不同的时尚商品类别的灰度图像，如鞋子、衬衫、裤子等。
使用示例：时尚商品图像分类。

SVHN（Street View House Numbers）

数据集类型：数字识别。
内容：包含来自 Google 街景图像的数字，用于数字识别任务。
使用示例：数字识别、卷积神经网络训练。

Penn Treebank（PTB）

数据集类型：自然语言处理（NLP）。
内容：包含了文本数据，用于语言建模和文本生成任务。
使用示例：循环神经网络（RNN）训练、语言建模。

IMDB Movie Reviews

数据集类型：自然语言处理（NLP）。
内容：包含来自互联网电影数据库（IMDB）的电影评论，标记为正面或负面情感。
使用示例：情感分析、文本分类。

Pascal VOC

数据集类型：目标检测和语义分割。
内容：包含了多个对象类别的图像，可用于目标检测和分割任务。
使用示例：目标检测、语义分割。

COCO（Common Objects in Context）

数据集类型：目标检测和语义分割。
内容：包含大量图像，每个图像包含多个对象的标注，用于目标检测和分割任务。
使用示例：目标检测、语义分割、实例分割。

这些数据集涵盖了图像分类、目标检测、语义分割、自然语言处理等不同领域的任务。根据你的研究或项目需求，你可以选择合适的数据集来训练和评估你的深度学习模型。需要注意的是，除了这些常见数据集之外，还有许多其他领域特定的数据集和数据资源可供使用。

Pytorch 基础教程

PyTorch 基础教程