天天看點

爬下20萬份菜單,資料解讀舌尖上的中國 | 饕餮文本大宴

爬下20萬份菜單,資料解讀舌尖上的中國 | 饕餮文本大宴

說來奇怪,中國人愛吃,但是對吃的卻有千百種看法和意見,有的人喜歡吃辣,有的人不喜歡,有的人喜歡吃甜豆腐,有的人喜歡吃鹹豆腐,千滋百味是中國菜的特色,但中國的味道到底是怎樣的?或者說,主流的中國味道是怎樣的?是美食節目裡精緻的膳食,還是晚上回家老媽的一碗熱面?抑或是家門口小飯館裡冒着熱氣的回鍋肉?

為了解決這個問題,我開始琢磨從資料分析上想點門路。在我咽了無數次口水後,我選取了幾個美食網站,這幾個美食網站的特點是,上面的美食都是使用者主動上傳的,是以,爬取這些美食的相關資料,就相當于趴在窗外看了一次别人家的晚飯,當我趴在窗戶上看了足夠多的别人家的晚飯的時候,關于中國味道的印象應該就可以成形了。

雖然這樣做看上去有點猥瑣,但是我的内心是高尚的,這一點必須澄清一下。

首先,我依舊是寫爬蟲,這個爬蟲能夠自動從這幾個美食網站上随機擷取美食的資訊,包括食材,烹饪時間,具體步驟,美食名稱,上傳美食的使用者位置這幾個資訊。

爬下20萬份菜單,資料解讀舌尖上的中國 | 饕餮文本大宴

和之前的爬蟲不一樣,這個爬蟲是自動去擷取資料的,不需要跟任何參數,是以我把它放在一邊,沒有管它,這樣過了一個小時之後。。。

爬下20萬份菜單,資料解讀舌尖上的中國 | 饕餮文本大宴

第二天我又把它開了半天,最後大概爬取了約20萬份全國各地的人們主動上傳的美食。看到資料的我突然覺得,要是這都是做給我吃的就好了,20萬道菜,就算一天吃10道菜,都可以吃50年了。資料從某方面來講确實是好東西,但畢竟不能吃,少了那麼些意思。

和之前分析歌詞不同,幾十萬字的歌詞也才1m上下,存個文本文檔就足夠了,但這次不一樣,20萬份下來最少100m,要是放在文本文檔裡那别說分析了,打開它都得讓電腦卡死,是以這一次,我鳥槍換炮,把它存在了 mysql 資料庫裡面,說實話,g 以下的資料,也暫時還用不到 hadoop 一類的東西,mysql 足矣。

爬下20萬份菜單,資料解讀舌尖上的中國 | 饕餮文本大宴

通過對食材的聚類分析,我們可以看出,最受歡迎的調理是鹽,其次是糖,醬油(ps:同類詞已經合并,例如糖和白糖,都算做糖)

爬下20萬份菜單,資料解讀舌尖上的中國 | 饕餮文本大宴

這從某種程度上說明了,鹹味比甜味還是更主流一點。

那麼,人們最喜歡吃的肉是什麼呢?我們把食材又做一次聚類,發現了如下事實:

爬下20萬份菜單,資料解讀舌尖上的中國 | 饕餮文本大宴

可以看得出,五花肉是不可撼動的存在,第二名排骨的份額也不錯,達到了12.1%,其次是牛肉和豬肉。雖然豬肉略遜于牛肉,但五花肉和排骨其實也是豬肉,是以,豬肉無可辯駁的是中國人的餐桌之王。令我比較吃驚的是蝦仁有8.57%的份額,我小時候基本上很少吃蝦仁,這世界變化快啊。

肉類看完了,那麼對于蔬菜的選擇又是怎樣的呢?

爬下20萬份菜單,資料解讀舌尖上的中國 | 饕餮文本大宴

看了結果我有一點憤怒,為什麼這麼難吃的胡蘿蔔居然是第一?而且那麼領先。又是為什麼,香菜居然出現在了前十的名單裡面。我最愛的洋芋,居然隻有 14.54% 的份額。這太讓人震驚了。

另外我還發現了一個不得不說一下的事實,就是在描述用量的時候,出現最多的是「适量」,這個描述每次我看到都很頭疼,适量到底是多少,為什麼不能說的明白一點呢,我手一抖,倒下去半瓶醋,是不是也是适量?

爬下20萬份菜單,資料解讀舌尖上的中國 | 饕餮文本大宴

看完了食材,我們看一下中國人最常做的菜是什麼:

爬下20萬份菜單,資料解讀舌尖上的中國 | 饕餮文本大宴

可樂雞翅,這勾起了我遙遠的回憶,我第一次聽到這個名字的時候還在上國小,那時候我覺得這個菜肯定特别牛逼,特别複雜。後來卻發現,這道菜出奇的簡單,那些号稱能在廚房露一手,但是平時從來不下廚房的人們,往往能露的也隻有可樂雞翅和蛋炒飯,最多再加一個洋芋絲。

另一個比較好玩的資料是烹饪時間,統計發現,接近半數的菜,烹饪時間為30-45分鐘,這充分說明了中國人做菜是充滿耐心的,雖然社交網絡上充斥着幾分鐘做一個什麼什麼菜的教程,但是大家還是願意認認真真,花幾個小時做一桌一家人的晚餐,這是中國傳統文化中關于食物的美好的地方。

爬下20萬份菜單,資料解讀舌尖上的中國 | 饕餮文本大宴

中國菜的技藝複雜,煎炒炸蒸焖煮燒,什麼技法是出現最多的呢?

爬下20萬份菜單,資料解讀舌尖上的中國 | 饕餮文本大宴

炒是做常見的做法,其次是燒,蒸和煎。

照例,我們可以杜撰一下一道典型中國菜的畫像:适量的五花肉,适量的胡蘿蔔,洋芋和洋蔥,以及适量的醬油,鹽和糖。首先把鍋燒熱,倒入适量的油,然後放入姜蒜,等香味出來後,放入五花肉,等到五花肉的油出來,肉微焦,香味四溢的時候,放入胡蘿蔔,洋芋,洋蔥,繼續翻炒,然後放入醬油上色,鹽,糖,繼續翻炒入味,還可以放點水燒一下。然後撒點蔥花,就可以出鍋了!

炒出來可能是這個樣子:

爬下20萬份菜單,資料解讀舌尖上的中國 | 饕餮文本大宴

md,居然餓了。

爬下20萬份菜單,資料解讀舌尖上的中國 | 饕餮文本大宴

原文釋出時間為:2017-03-02

本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号

繼續閱讀