连LeCun都推荐的Fashion-MNIST数据集,是这位华人博士的成果

简介:
本文来自AI新媒体量子位(QbitAI)

上周六,量子位在报道中提到德国时尚圈的科学家,推出一个名叫Fashion-MNIST的数据集。这个数据集里都是衣裤鞋包,但它的目标是替代MNIST。

随后我们发现这个数据集引发了好多研究人员的关注,包括大名鼎鼎的Yann LeCun——他周日在Facebook上推荐了这个数据集,也引发了很多的讨论。

3407916d1125158d794064c0d456bb65aab5ca10

更令我们意外的是,量子位周日收到了Fashion-MNIST数据集作者的来信,而且是一封中文来信!嗯,就是那种阅读起来毫无压力的纯正简体中文~

直到这个时候,我们才意识到这个最近非常火的数据集,虽然出自一家德国公司,但是主要的作者是一位华人:肖涵(Han Xiao)。

“这个项目是为机器学习人工智能领域提供一个更有挑战性、更有趣的MNIST替代数据集”,肖涵博士再次谈到这个项目的意义。

对于这个数据集的表现,他提到:“我也收到了很多国内AI研究员良好的使用体验,他们表示在MNIST上区分不开的算法(0.1%之差)可以在Fashion-MNIST上很好的区分开来。”

最重要的是,肖涵博士告诉量子位,他已经在GitHub上为这个数据集增加了中文文档(README.zh-CN.md)。本文最后,量子位也会摘录部分其中的内容。另外,通过这个地址即可前往访问Fashion-MNIST数据集的更多详情:

github.com/zalandoresearch/fashion-mnist

关于肖涵博士,量子位也简单的查询了一下相关背景。他目前是德国公司Zalando旗下研究院NLP组的高级研究科学家。肖涵在慕尼黑工业大学获得硕士及博士学位,此前本科毕业于北京邮电大学。(下面放一张真人秀)

0183169bf838c77d389d8f9cdb54165d41f846d8

 肖涵博士

最后,我们摘录Fashion-MNIST的中文文档部分内容如下。

FashionMNIST是一个替代MNIST手写数字集的图像数据集。 它是由Zalando(一家德国的时尚科技公司)旗下的研究部门提供。其涵盖了来自10种类别的共7万个不同商品的正面图片。FashionMNIST的大小、格式和训练集/测试集划分与原始的MNIST完全一致。60000/10000的训练测试数据划分,28x28的灰度图片。你可以直接用它来测试你的机器学习和深度学习算法性能,且不需要改动任何的代码。

这个数据集的样子大致如下(每个类别占三行):

ee1ba15707a537f958a3e28094bd5a132925d7fd

为什么要做这个数据集?

经典的MNIST数据集包含了大量的手写数字。十几年来,来自机器学习、机器视觉、人工智能、深度学习领域的研究员们把这个数据集作为衡量算法的基准之一。你会在很多的会议,期刊的论文中发现这个数据集的身影。实际上,MNIST数据集已经成为算法作者的必测的数据集之一。有人曾调侃道:”如果一个算法在MNIST不work, 那么它就根本没法用;而如果它在MNIST上work, 它在其他数据上也可能不work!”

Fashion-MNIST的目的是要成为MNIST数据集的一个直接替代品。作为算法作者,你不需要修改任何的代码,就可以直接使用这个数据集。Fashion-MNIST的图片大小,训练、测试样本数及类别数与经典MNIST完全相同。

写给专业的机器学习研究者

我们是认真的。取代MNIST数据集的原因由如下几个:

MNIST太简单了,很多算法在测试集上的性能已经达到99.6%!不妨看看我们基于scikit-learn上对经典机器学习算法的评测 和这段代码: “Most pairs of MNIST digits can be distinguished pretty well by just one pixel”(翻译:大多数MNIST只需要一个像素就可以区分开!)

MNIST被用烂了。参考:”Ian Goodfellow wants people to move away from mnist”(翻译:Ian Goodfellow希望人们不要再用MNIST了。)

MNIST数字识别的任务不代表现代机器学习。参考:”François Cholle: Ideas on MNIST do not transfer to real CV” (翻译:在MNIST上看似有效的想法没法迁移到真正的机器视觉问题上。)

其他

文档中还详尽描述了数据获取、类别标注、如何载入数据、评测等信息,另外作者还建立了一个讨论的聊天室。

目前相关论文已经在arXiv上发表,地址在此:

https://arxiv.org/abs/1708.07747

在量子位微信公众号(QbitAI)后台回复:“XH”两个字母,也可以获得我们放在网盘上的下载地址,就酱~

本文作者:允中 
原文发布时间: 2017-08-28
相关文章
|
XML Web App开发 人工智能
SVG图像——为 PPT 增添视觉趣味/03/O365智能系列(二)
SVG图像——为 PPT 增添视觉趣味/03/O365智能系列(二)
2413 0
SVG图像——为 PPT 增添视觉趣味/03/O365智能系列(二)
|
6月前
|
小程序 JavaScript 前端开发
基于微信小程序的校园外卖订餐配送系统
本研究针对校园外卖配送效率低、体验差等问题,设计并实现基于微信小程序的智能配送平台。融合SSM、Vue、uni-app等技术,优化点餐、支付与配送流程,提升师生用餐体验与餐饮管理效率。
|
7月前
|
编解码 前端开发 图形学
《拆解Unity开发顽疾:从UI渲染异常到物理交互失效的实战排障手册》
本文结合多人竞技游戏开发实例,剖析Unity开发中三类高频复杂Bug的解决路径。移动端动态加载UI时,因脚本执行顺序不当与层级管理疏漏,出现元素错位与层级混乱,通过调整函数执行时机、添加布局判断及锁定Sorting Order解决;角色技能物理碰撞失效,源于移动端物理检测简化与移动方法不当,重构物理逻辑、优化检测参数后改善;联机场景模型材质丢失,因客户端与主机资源加载不同步,添加进度同步与加载校验后消除。文中还提炼“现象归档-环境复刻-工具追踪-原理拆解”排查法,强调引擎底层认知与多场景适配的重要性。
304 4
|
7月前
|
供应链 安全 API
唯品会:利用银行转账API实现企业采购对公支付的技术实践
企业采购支付面临合规、效率与对账难题。唯品会通过银行API实现银企直连,构建安全高效对公支付系统,支持ISO 20022标准与多重风控,支付耗时从72小时降至90秒,错误率下降98%,推动供应链数字化升级。(236字)
548 1
|
8月前
|
JSON 算法 API
拼多多API跨店比价功能,选品效率提升60%!
拼多多推出API跨店比价功能,助力商家与消费者高效选品。通过自动化比价与智能算法,实现选品效率提升60%。开发者可快速集成,优化采购与购物体验。智能高效,抢占市场先机。了解详情:https://o0b.cn/evan
731 0
|
前端开发 JavaScript API
React开发需要了解的10个库
本文首发于微信公众号“前端徐徐”,介绍了React及其常用库。React是由Meta开发的JavaScript库,用于构建动态用户界面,广泛应用于Facebook、Instagram等知名网站。文章详细讲解了Axios、Formik、React Helmet、React-Redux、React Router DOM、Dotenv、ESLint、Storybook、Framer Motion和React Bootstrap等库的使用方法和应用场景,帮助开发者提升开发效率和代码质量。
581 4
React开发需要了解的10个库
|
Web App开发 缓存 前端开发
【Flutter前端技术开发专栏】Flutter中的性能优化与内存管理
【4月更文挑战第30天】本文探讨了Flutter应用的性能优化和内存管理。关键点包括:减少布局重绘(使用`const`构造函数和最小化依赖),选择合适的动画实现,懒加载和按需加载以提升性能。同时,强调了避免内存泄漏和优化内存使用,利用Flutter提供的性能分析工具。实践案例展示了如何优化ListView,包括使用`ListView.builder`和缓存策略。通过这些方法,开发者可以提升应用的响应性、流畅性和稳定性。
799 0
【Flutter前端技术开发专栏】Flutter中的性能优化与内存管理
|
存储 Ubuntu 安全
ubuntu各个版本的支持时间
ubuntu各个版本的支持时间
|
数据采集 搜索推荐 安全
智慧城市的交通管理大数据模型
智慧城市交通管理系统借助大数据模型,通过全面收集交通数据(如监控、GPS、公共交通信息等),进行数据清洗和预处理,利用Python的Pandas进行数据管理。通过ARIMA等模型分析,预测交通流量、识别交通模式,支持智能信号控制、预测性维护和事件响应。这种集成分析与决策支持系统提升城市交通效率,确保出行安全,预示着未来交通管理的智能化和个性化趋势。【6月更文挑战第23天】
1512 10