常见公开数据集介绍
本文将简要介绍不同领域中的经典公开数据集供读者参考。
计算机视觉
1)COCO数据集:一个经典的大型图像数据集,超过30万张图片,80个物体
类别,主要包括了目标分割、目标检测、目标定位、场景识别、图像多目标识别
等项目。
2)ImageNet:一个用于视觉对象识别软件研究的大型经典可视化数据库,包含
了目标定位、目标检测、视频序列的目标检测、场景分类、场景分析等多个项目
的数据集。
3)MNIST:经典的小型(28x28像素)灰度手写数字数据集。
4)CIFAR10:10个类别,多达60000张的32x32像素彩色图像(50000张训
练图像和10000张测试图像),平均每种类别拥有6000张图像。该数据集的
升级版本有CIFAR100。
5)Caltech-UCSDBirds-200-2011:包含200种鸟类(主要为北美洲鸟类)照片
的图像数据集,可用于图像识别工作。
6)Oxford-IIITPet:包含37种宠物类别的图像数据集,每个类别约有200张
图像。这些图像在比例、姿势以及光照方面有着丰富的变化。本数据集也可以用
于目标检测定位。
7)Oxford102Flowers:包含102种花类的图像数据集(主要是一些英国常见
的花类),每个类别包含40—258张图像。这些图像在比例、姿势以及光照方
面有着丰富的变化。
8)Caltech101:包含101种物品类别的图像数据集,平均每个类别拥有
40—800张图像,其中很大一部分类别的图像数量固为50张左右。每张图像的
大小约为300x200像素。本数据集也可以用于目标检测定位。
9)Food-101:包含101种食品类别的图像数据集,共有101,000张图像,平
均每个类别拥有250张测试图像和750张训练图像。训练图像未经过数据清洗。
所有图像都已经重新进行了尺寸缩放,最大边长达到了512像素。
10)Stanfordcars:包含196种汽车类别的图像数据集,共有16,185张图像,
分别为8,144张训练图像和8,041张测试图像,每个类别的图像类型比例基本
上都是五五开。本数据集的类别主要基于汽车的牌子、车型以及年份进行划分。
自然语言处理
1)IMDbLargeMovieReviewDataset:用于情感二元分类的数据集,其中包含
25,000条用于训练的电影评论和25,000条用于测试的电影评论,这些电影评论
的特点是两极分化特别明显。
2)Wikitext-103:超过1亿个语句的数据合集,全部从维基百科的Good与
Featured文章中提炼出来。广泛用于语言建模,
3)WMT2015French/Englishparalleltexts:用于训练翻译模型的法语/英语平行文
本,拥有超过2000万句法语与英语句子。
4)AGNews:496,835条来自AG新闻语料库4大类别超过2000个新闻源的
新闻文章,数据集仅仅援用了标题和描述字段。每个类别分别拥有30,000个训
练样本及1900个测试样本。
5)Amazonreviews-Full:34,686,770条来自6,643,669名亚马逊用户针对
2,441,053款产品的评论,数据集主要来源于斯坦福网络分析项目(SNAP)。
6)DBPediaontology:来自DBpedia2014的14个不重叠的分类的40,000个
训练样本和5,000