基本信息
文件名称:信息产品设计基础 教案 常见公开数据集介绍(3.2.2).pdf
文件大小:555.8 KB
总页数:3 页
更新时间:2025-05-17
总字数:约3.59千字
文档摘要

常见公开数据集介绍

本文将简要介绍不同领域中的经典公开数据集供读者参考。

计算机视觉

1)COCO数据集:一个经典的大型图像数据集,超过30万张图片,80个物体

类别,主要包括了目标分割、目标检测、目标定位、场景识别、图像多目标识别

等项目。

2)ImageNet:一个用于视觉对象识别软件研究的大型经典可视化数据库,包含

了目标定位、目标检测、视频序列的目标检测、场景分类、场景分析等多个项目

的数据集。

3)MNIST:经典的小型(28x28像素)灰度手写数字数据集。

4)CIFAR10:10个类别,多达60000张的32x32像素彩色图像(50000张训

练图像和10000张测试图像),平均每种类别拥有6000张图像。该数据集的

升级版本有CIFAR100。

5)Caltech-UCSDBirds-200-2011:包含200种鸟类(主要为北美洲鸟类)照片

的图像数据集,可用于图像识别工作。

6)Oxford-IIITPet:包含37种宠物类别的图像数据集,每个类别约有200张

图像。这些图像在比例、姿势以及光照方面有着丰富的变化。本数据集也可以用

于目标检测定位。

7)Oxford102Flowers:包含102种花类的图像数据集(主要是一些英国常见

的花类),每个类别包含40—258张图像。这些图像在比例、姿势以及光照方

面有着丰富的变化。

8)Caltech101:包含101种物品类别的图像数据集,平均每个类别拥有

40—800张图像,其中很大一部分类别的图像数量固为50张左右。每张图像的

大小约为300x200像素。本数据集也可以用于目标检测定位。

9)Food-101:包含101种食品类别的图像数据集,共有101,000张图像,平

均每个类别拥有250张测试图像和750张训练图像。训练图像未经过数据清洗。

所有图像都已经重新进行了尺寸缩放,最大边长达到了512像素。

10)Stanfordcars:包含196种汽车类别的图像数据集,共有16,185张图像,

分别为8,144张训练图像和8,041张测试图像,每个类别的图像类型比例基本

上都是五五开。本数据集的类别主要基于汽车的牌子、车型以及年份进行划分。

自然语言处理

1)IMDbLargeMovieReviewDataset:用于情感二元分类的数据集,其中包含

25,000条用于训练的电影评论和25,000条用于测试的电影评论,这些电影评论

的特点是两极分化特别明显。

2)Wikitext-103:超过1亿个语句的数据合集,全部从维基百科的Good与

Featured文章中提炼出来。广泛用于语言建模,

3)WMT2015French/Englishparalleltexts:用于训练翻译模型的法语/英语平行文

本,拥有超过2000万句法语与英语句子。

4)AGNews:496,835条来自AG新闻语料库4大类别超过2000个新闻源的

新闻文章,数据集仅仅援用了标题和描述字段。每个类别分别拥有30,000个训

练样本及1900个测试样本。

5)Amazonreviews-Full:34,686,770条来自6,643,669名亚马逊用户针对

2,441,053款产品的评论,数据集主要来源于斯坦福网络分析项目(SNAP)。

6)DBPediaontology:来自DBpedia2014的14个不重叠的分类的40,000个

训练样本和5,000