信息产品设计基础教案常见公开数据集介绍（3.2.2）.pdf - 创享文库

基本信息

文件名称：信息产品设计基础教案常见公开数据集介绍（3.2.2）.pdf

文件大小：555.8 KB

总页数：3 页

更新时间：2025-05-17

总字数：约3.59千字

文档摘要

常见公开数据集介绍

本文将简要介绍不同领域中的经典公开数据集供读者参考。

计算机视觉

1)COCO数据集：一个经典的大型图像数据集，超过30万张图片，80个物体

类别，主要包括了目标分割、目标检测、目标定位、场景识别、图像多目标识别

等项目。

2)ImageNet：一个用于视觉对象识别软件研究的大型经典可视化数据库，包含

了目标定位、目标检测、视频序列的目标检测、场景分类、场景分析等多个项目

的数据集。

3)MNIST：经典的小型（28x28像素）灰度手写数字数据集。

4)CIFAR10：10个类别，多达60000张的32x32像素彩色图像（50000张训

练图像和10000张测试图像），平均每种类别拥有6000张图像。该数据集的

升级版本有CIFAR100。

5)Caltech-UCSDBirds-200-2011：包含200种鸟类（主要为北美洲鸟类）照片

的图像数据集，可用于图像识别工作。

6)Oxford-IIITPet：包含37种宠物类别的图像数据集，每个类别约有200张

图像。这些图像在比例、姿势以及光照方面有着丰富的变化。本数据集也可以用

于目标检测定位。

7)Oxford102Flowers：包含102种花类的图像数据集（主要是一些英国常见

的花类），每个类别包含40—258张图像。这些图像在比例、姿势以及光照方

面有着丰富的变化。

8)Caltech101：包含101种物品类别的图像数据集，平均每个类别拥有

40—800张图像，其中很大一部分类别的图像数量固为50张左右。每张图像的

大小约为300x200像素。本数据集也可以用于目标检测定位。

9)Food-101：包含101种食品类别的图像数据集，共有101,000张图像，平

均每个类别拥有250张测试图像和750张训练图像。训练图像未经过数据清洗。

所有图像都已经重新进行了尺寸缩放，最大边长达到了512像素。

10)Stanfordcars：包含196种汽车类别的图像数据集，共有16,185张图像，

分别为8,144张训练图像和8,041张测试图像，每个类别的图像类型比例基本

上都是五五开。本数据集的类别主要基于汽车的牌子、车型以及年份进行划分。

自然语言处理

1)IMDbLargeMovieReviewDataset：用于情感二元分类的数据集，其中包含

25,000条用于训练的电影评论和25,000条用于测试的电影评论，这些电影评论

的特点是两极分化特别明显。

2)Wikitext-103：超过1亿个语句的数据合集，全部从维基百科的Good与

Featured文章中提炼出来。广泛用于语言建模，

3)WMT2015French/Englishparalleltexts：用于训练翻译模型的法语/英语平行文

本，拥有超过2000万句法语与英语句子。

4)AGNews：496,835条来自AG新闻语料库4大类别超过2000个新闻源的

新闻文章，数据集仅仅援用了标题和描述字段。每个类别分别拥有30,000个训

练样本及1900个测试样本。

5)Amazonreviews-Full：34,686,770条来自6,643,669名亚马逊用户针对

2,441,053款产品的评论，数据集主要来源于斯坦福网络分析项目（SNAP）。

6)DBPediaontology：来自DBpedia2014的14个不重叠的分类的40,000个

训练样本和5,000