爬下20万份菜谱，数据解读舌尖上的中国 | 饕餮文本大宴-阿里云开发者社区

爬下20万份菜谱，数据解读舌尖上的中国 | 饕餮文本大宴

2017-05-23 2142

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

说来奇怪，中国人爱吃，但是对吃的却有千百种看法和意见，有的人喜欢吃辣，有的人不喜欢，有的人喜欢吃甜豆腐，有的人喜欢吃咸豆腐，千滋百味是中国菜的特色，但中国的味道到底是怎样的？或者说，主流的中国味道是怎样的？是美食节目里精致的膳食，还是晚上回家老妈的一碗热面？抑或是家门口小饭馆里冒着热气的回锅肉？

为了解决这个问题，我开始琢磨从数据分析上想点门路。在我咽了无数次口水后，我选取了几个美食网站，这几个美食网站的特点是，上面的美食都是用户主动上传的，因此，爬取这些美食的相关数据，就相当于趴在窗外看了一次别人家的晚饭，当我趴在窗户上看了足够多的别人家的晚饭的时候，关于中国味道的印象应该就可以成形了。

虽然这样做看上去有点猥琐，但是我的内心是高尚的，这一点必须澄清一下。

首先，我依旧是写爬虫，这个爬虫能够自动从这几个美食网站上随机获取美食的信息，包括食材，烹饪时间，具体步骤，美食名称，上传美食的用户位置这几个信息。

和之前的爬虫不一样，这个爬虫是自动去获取数据的，不需要跟任何参数，因此我把它放在一边，没有管它，这样过了一个小时之后。。。

第二天我又把它开了半天，最后大概爬取了约20万份全国各地的人们主动上传的美食。看到数据的我突然觉得，要是这都是做给我吃的就好了，20万道菜，就算一天吃10道菜，都可以吃50年了。数据从某方面来讲确实是好东西，但毕竟不能吃，少了那么些意思。

和之前分析歌词不同，几十万字的歌词也才1M上下，存个文本文档就足够了，但这次不一样，20万份下来最少100M，要是放在文本文档里那别说分析了，打开它都得让电脑卡死，所以这一次，我鸟枪换炮，把它存在了 mysql 数据库里面，说实话，G 以下的数据，也暂时还用不到 Hadoop 一类的东西，mysql 足矣。

通过对食材的聚类分析，我们可以看出，最受欢迎的调理是盐，其次是糖，酱油（PS:同类词已经合并，例如糖和白糖，都算做糖）

这从某种程度上说明了，咸味比甜味还是更主流一点。

那么，人们最喜欢吃的肉是什么呢？我们把食材又做一次聚类，发现了如下事实：

可以看得出，五花肉是不可撼动的存在，第二名排骨的份额也不错，达到了12.1%，其次是牛肉和猪肉。虽然猪肉略逊于牛肉，但五花肉和排骨其实也是猪肉，因此，猪肉无可辩驳的是中国人的餐桌之王。令我比较吃惊的是虾仁有8.57%的份额，我小时候基本上很少吃虾仁，这世界变化快啊。

肉类看完了，那么对于蔬菜的选择又是怎样的呢？

看了结果我有一点愤怒，为什么这么难吃的胡萝卜居然是第一？而且那么领先。又是为什么，香菜居然出现在了前十的名单里面。我最爱的土豆，居然只有 14.54% 的份额。这太让人震惊了。

另外我还发现了一个不得不说一下的事实，就是在描述用量的时候，出现最多的是「适量」，这个描述每次我看到都很头疼，适量到底是多少，为什么不能说的明白一点呢，我手一抖，倒下去半瓶醋，是不是也是适量？

看完了食材，我们看一下中国人最常做的菜是什么：

可乐鸡翅，这勾起了我遥远的回忆，我第一次听到这个名字的时候还在上小学，那时候我觉得这个菜肯定特别牛逼，特别复杂。后来却发现，这道菜出奇的简单，那些号称能在厨房露一手，但是平时从来不下厨房的人们，往往能露的也只有可乐鸡翅和蛋炒饭，最多再加一个土豆丝。

另一个比较好玩的数据是烹饪时间，统计发现，接近半数的菜，烹饪时间为30-45分钟，这充分说明了中国人做菜是充满耐心的，虽然社交网络上充斥着几分钟做一个什么什么菜的教程，但是大家还是愿意认认真真，花几个小时做一桌一家人的晚餐，这是中国传统文化中关于食物的美好的地方。

中国菜的技艺复杂，煎炒炸蒸焖煮烧，什么技法是出现最多的呢？

炒是做常见的做法，其次是烧，蒸和煎。

照例，我们可以杜撰一下一道典型中国菜的画像：适量的五花肉，适量的胡萝卜，土豆和洋葱，以及适量的酱油，盐和糖。首先把锅烧热，倒入适量的油，然后放入姜蒜，等香味出来后，放入五花肉，等到五花肉的油出来，肉微焦，香味四溢的时候，放入胡萝卜，土豆，洋葱，继续翻炒，然后放入酱油上色，盐，糖，继续翻炒入味，还可以放点水烧一下。然后撒点葱花，就可以出锅了！

炒出来可能是这个样子：

MD，居然饿了。

原文发布时间为：2017-03-02

本文来自云栖社区合作伙伴“大数据文摘”，了解相关信息可以关注“BigDataDigest”微信公众号

爬下20万份菜谱，数据解读舌尖上的中国 | 饕餮文本大宴

大数据文摘

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

爬下20万份菜谱，数据解读舌尖上的中国 | 饕餮文本大宴

大数据文摘

热门文章

最新文章

相关电子书