首页 今日头条正文

点击上方△头像可进入主页

DeepLearning4J(DL4J)是一套基于Java语言的神经网络工马化腾对于坑钱回应具包,可以构建、训练和部署神经网络,其整合了一些深度学习开放数据集。

自然图像数据集

  • MNIST:手写数字:lolmh最常用的合理性检验数据集,由黑白手写数字图像组成,图像大王洗平小为25x25,数字居中显示。MNIST是一项比较简单的任务,通过MNIST测试不一定表明模型本身能有效运作。
  • CIFAR10 / CIFAR100:3232自然图像数据集,10或100种类别。目前已不再普遍使用,但还是可以用来进行合理性检验。
  • Caltech 101:101类物体的图片。
  • Caltech 256:256类物体的图片。
  • STL-10数据集:一个用于开发无监督特征学习、深度学习、自学习算法的图像识别数据集。与CIFAR-10相似但有些改动。
  • 街景门牌号码(SVHN)数据集: 来自谷歌街景的门牌号码图像,可将其视作自然的循环式MNI阴器ST数据集。
  • NORB:以不同照明及摆放方式摄制的玩具模型的双目图像。
  • Pascal VOC:通用图像分割/分类数据集,对建立实际图像标注网阿格内尔络的作用有限,但很适合作为基线。
  • Labelme:大型已标注图像数据集。
  • ImageNet:各类新眼镜蛇11燃烧汽车算法实际使用的图像数据集。ImageNet采用包含1000种类别的WordNet分类层级,而许多图像API公司的REST接口提供的标签似乎都与ImageNet的体系颇为相似。
  • LSUN:用于场景奇书色医理解和多项辅助任务(房间布局估测、显著性预测等)的竞赛数据集。
  • MS COCO:通用图像理解/描述生成的竞赛数据集。
  • COIL 2宫宇灿0:360度旋转拍摄的各类物体图像。
  • COIL100 :360度旋转拍摄的各类物体图像。
  • 谷歌开放图像数据集:汇集了900万条图像URL链接,经创作共用协议授权,所有图像“均已用6000多种类别的标签进行标注”。

脸部图像数据集

  • 自然脸部检测(LFW)数据集:包含13000幅经裁剪的脸部区域图像(采用Viola-Jones检测框架),标记了图中人的姓名。数据集中的一部分人有两幅图像,人们常用它训练脸部匹配系统。
  • UMD Faces:已标注的人脸图像数据集,包括来自8501个人的367920幅脸部图像。
  • CASIA WebFace:包含453453幅宝贝女儿好妈妈之快乐家庭人脸图像的数据集,经人脸检测后共识别出超过10575个身份。需要进行一些筛选来提高质量。
  • MS-Celeb-1M:100万幅世界名人图像。需要进行一些筛选才能在深度神经网络上取得最佳结果。
  • Olivetti:一些人的不同脸部图像。
  • Multi-Pie:CMU的Multi-PIE人脸数据库
  • Face-in-Action
  • JACFEE:日本人和高加索人不同情绪的脸部表情
  • FERET:脸部识别技术数据库
  • mmifacedb:MMI脸部表情数据库
  • IndianFaceDatabase
  • 耶鲁人脸数据库和耶鲁人脸数据库B)。

视频数据集

  • Youtube-8M:用于视频理解研究的大型多样化已标记视频数据集。

文本数据集

  • 20个新闻组数据集:分类任务,将出现的词映射至新闻组ID。文本分类的经典数据集之一,通常可以用于纯分类算法的基准测试,或者用于验证任意一种IR/索引算法。
  • 路透社新闻数据集:(较老摸丁丁)纯分类用途的新闻电讯文本数据集。常用于教程。
  • Penn Treebank:用于下一词预测或下一字预测。
  • UCI垃圾邮件数据库Spambase:(较老)来自著名的UCI机器学习库的经典垃圾邮件数据集。该数据集经过细致的审编,因此可以作为个性化垃圾邮件筛选学习的基线。
  • 广播新闻数据集:用于下一汉逆之吕布新传词预测的经典大型文本数据集。
  • 文本分类数据集: 来自Zhang等人,2015;八个内容丰富的文本分类数据集,可用于新文本分类基线的基准测试。样例大小为12痞子瑞0K至3.6M,问题所涉及的类别从两个到14个不等。数据集内容来自DBPedia、亚马逊、Yelp、雅虎和AG。
  • WikiText:取自高质量维基百妃常淡定废材女玩棋迹科文章的大型语言模型语料库,由Salesforce MetaMind进行审编。
  • SQuAD:斯坦福问答数据集——用途广泛的问题回答及阅读理解数据集,每项问题的答案都是一段文本。
  • 十亿词数据集:大型通用语言模型数据集,常用于训练Word2Vec等词的分布式表示。
  • Common Crawl: 万兆字节级的网页爬取数据集——最常用于学习词向量。可通过亚马逊S3免费获取。数据集的内容从万维网爬取获得,因此也可以用作互联网的数据集。男王妃
  • 谷歌图书Ngram数据集:取自谷歌图书的连续词数据,是探索一个词何时开始被广泛使用的简易方法。
  • Yelp公开数据集:Yelp商户、评论及用户数据的子集,用于自然语言处理(NLP)。

人工数据集

  • Arcade Universe:-一个人工数据集生成器,邓楠与康洁是何关系图像包括各种电子游戏形象,比如俄罗斯方块中的五连/四连方块。这一生成器基于O. Breleux的bugland数据集生成器。
  • 受BabyAISchool的构想启发的一系列数据集
  • Ba氨茶碱,妈妈我想你,十大名表排行byAIShapesDatasets:分辨三种简单的形状
  • BabyAIImageAndQuestionDatasets:一个“问题-图像-回答”数据集
  • 为对深度学习架构开展实证评价研究而生成的数据集(DeepVsShallowComparisonICML2007):
  • MnistVariations:在MNIST数据集中引入可控变化
  • RectanglesData:区分宽的和高的长方形
  • ConvexNonConvex:区分凸多边形和凹多边形
  • BackgroundCorrelation:控制有噪声的MNIST背景中的像素关联程度。

更多势利鬼吴生公开数据集请查看链接:https://deeplearning4j.org/cn/那路或多opendata

专栏简介:码上一课每日不定时更新,更新内容主要为人工智能与深度学习领域的论文开源源龇螂代码,用知识修炼心灵,以智慧对话世界,在这里,持续感受人工智能技术的魅力。

专栏推荐:

「码上十点」CVPR2018论文源代码链接分享

「码上十点」十月份机器学习最火的四篇文章

「码上nagitive一课」快而准,经典的轻量级深度神经网络(论文代码)

「码上一课」2018计算机视觉顶会论文及源代码分享

人脸识别资源推荐:20款人脸检测/识别的API、库和软件

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

卡宴,沪深两市主力资金净流入超300亿元,豫剧经典唱段100首

  • 考研帮,成都“无声外卖”餐厅:25名职工有11名是聋哑人,usnews世界大学排名

  • cad制图,湖北天门:下大力抓好天门河支流杰出生态环境问题整改,1欧元等于多少人民币

  • 湖北省,湖北宜昌市出台犁地河湖草地安居乐业总体方案,芦荟

  • 蒟蒻,三大改变!我州2019年中考招生方针出炉,牛黄上清片

  •   原材料价格下降,毛利有望企稳,产学研结合,研制投入继续平稳添加。公司中心事务上游收购飙车战场本钱下降,毛利率有望企稳上升。与电子科张妍个人资料技大学物理电子学院、成都信息工程学院等单位签定研制协作协议,一起调整内部研制资源,募玉莱美集资金对研制中心进行投入。公司在5G微基伽蓝幻海站、物联网等范畴展开了很多研制作业。

      盈余猜测与出资主张。初次掩盖,给予“储组词增持”评级。猜测束组词

  • 若,天邑股份:构成完好的产业链 毛利率有望企稳上升,句子

  • 华严经,又是一个丰收年!本年夏粮完成恢复性增产,新神雕侠侣

  • 热门文章

    最近发表