天天看點

《文科生資料科學上手指南》分享苦惱應用閱聽人适合架構擷取說明

《文科生資料科學上手指南》分享苦惱應用閱聽人适合架構擷取說明

據說技術門檻在降低。作為文科生的你,該如何從這種趨勢中收獲更多?

苦惱

你大概經常聽别人提起,技術的門檻在降低。

資料科學、機器學習、自然語言處理、神經網絡、人工智能……一系列的名詞讓你眼花缭亂,讓你對這個時代充滿興奮的感覺。你躍躍欲試,希望自己動手,也能用新技術做出卓有成效的工作。

但是,如果你不是IT專業的學生,特别糟糕的是,你還是一名文科生,那你可能會逐漸發現,技術的世界似乎不那麼友好。

你隻想對文本提取主題,人家給你寫了這麼長的公式:

《文科生資料科學上手指南》分享苦惱應用閱聽人适合架構擷取說明

你想做個時間序列的預測,結果人家告訴你,一個處理單元,就有這樣的結構:

《文科生資料科學上手指南》分享苦惱應用閱聽人适合架構擷取說明

除了迅速“從入門到放棄”,你還能怎麼辦?

應用

别急,這不是真相。

真相是,隻要你知道如何找到正确的工具包,就可以用短短幾行代碼,完成從前需要手工幹幾天的活兒。不信?可以看看我這篇《

如何用4行 R 語句,快速探索你的資料集?

寫代碼,如今已經變成了和開車一樣的基礎技能。開輛自動擋的汽車,不難掌握對吧?

你即便已經安全行駛幾十萬公裡,成為名副其實的老司機,也不必了解發動機(或者電動機)的構造,對不?

需要維護保養,那是自然,但是這些工作,我們都可以交給專業人士代勞。

你需要了解的,無非是轉向、刹車、油門、信号燈……

技術門檻的降低,就應該展現在處理資料問題的時候,你會像開車一樣自然。而不應當像學習發動機構造一樣挑戰自我。

閱聽人

在機械師的眼中,發動機的構造非常簡單易懂。是以他們中大部分人寫發動機構造教程的時候,不會去考慮那些對實體一無所知者的感受。

同樣,那些制造資料科學與人工智能工具的人,一樣很聰明,覺得這些原理就是“應知應會”。是以他們中寫資料科學類教程的時候,大多數人也根本不會考慮那些閱讀數學公式和分析模型構造有困難的文科生。

Youtube 上有位老兄,就是因為 Tensorflow 的官方教程寫得太爛,跟着走一遍都完成不下來。于是一賭氣,自己做了一套 Tensorflow 的教程。

這個教程,我在知識星球為你分享過。

你可能會挑戰我的說法:

老師,我最近剛看過 Tensorflow 官方教程,寫得很好啊!

給你5秒鐘,思考一下……

現在,你明白原因了吧。改進,大都是源于外部壓力的。

文科生們充滿恐懼和緊張,試圖掌握資料科學工具,來完成科研與工作任務;寫教材的人,依然在完完整整列出公式,甚至是推導過程。

你想學開車,他卻一定先要你學會發動機構造。

你可能産生了自卑感——好像看不懂這些公式,你就不配成為他的讀者。

其實,這又有什麼?你完全不必成為他的讀者。

你們之間,沒有誰對誰錯,隻是沒有緣分而已。

想必你我都認同,普通的非專職司機,智商并不比掌握内燃機構造的機械師低下。他可能是成功的生物學家,成功的作家。即便不動發動機構造和工作原理,依然可以很好地開車,順利安全到達自己的目的地。

同樣,作為文科生,你也不該在這場數字技術洪流中受到歧視。特别是,你不應該把自己推到數字鴻溝的另一端。

适合

你需要的,是适合自己閱讀的教程。

這種教程的特點是什麼?

在我看來,大緻包括:

  • 以問題為導向。用例子講明白如何用合适的工具,簡單高效解決問題;
  • 解決問題的方法,完全可以重複。教程必須給出全部的代碼和步驟流程。你自己拿過來就能上手,做出的結果會增強你的信心;
  • 盡量不使用數學公式,和一大堆把人繞暈的術語。即便使用術語,也需要給你解釋清楚。

秉持這樣的原則,從2017年6月開始,我在自己的公衆号“玉樹芝蘭”和簡書、知乎、科學網專欄,為你寫了一系列的資料科學教程。

這些教程,受到了很多讀者的歡迎。你熱情的留言和讨論,是激發我不斷寫作的源動力。

可惜不論是公衆号,還是專欄,似乎文章一多,檢索都是個問題。公衆号的問題更多一些,因為釋出後無法修改和疊代改進。

現在,我覺得這一系列文章,應該可以組合成為一本書了。是以,我就寫了這樣一本書,傳遞給你。

架構

在書裡你可以通覽内容架構,檢索也可以友善許多。

這本書分為以下章節:

  • 導讀
  • 環境設定
  • 上手
  • 探索分析
  • 自然語言處理
  • 機器學習
  • 深度學習
  • 雲端環境
  • 資料擷取
  • 答疑時間

以上隻列出了章的名稱。建議你拿到書後,先看看目錄。

每一小節,我都保持了原汁原味的問題導向風格标題。希望浏覽之後,你可以迅速定位到自己需要的部分,實踐和複用代碼,解決自己遇到的實際問題。

我在不同章節間,設定了交叉引用。需要參考其他章節的位置,你都可以在文中找到連結,進行快速友善地跳轉。

絕大部分的章節,都配備了 github 配套代碼和樣例資料。你可以盡情下載下傳、修改和使用。隻是别忘了在我的 github 上面,點個星星,相當于點贊了。謝謝!

這些文章,經曆了成百上千讀者實際運作檢驗。他們提供的回報,也曾幫助我查找出了許多問題。我通過觀察他們提問,找到了教程講解中,他們還不是很了解的部分,不斷疊代改進表述方式和用例。

特别地,對于某些問題集中的重點概念,我還專門寫了答疑文章,甚至做了視訊教程。

擷取

好了,我知道讀到這裡,你的耐心已經經受了極大的考驗,是吧?

你可以點選

這個連結

http://t.cn/EvMHAyo

),通路這本書的免費線上開放版本。

希望你動手嘗試以後,會明白“技術門檻降低”不是一句騙人的話。而是真實世界裡,實實在在發生的趨勢。

說明

你不是文科生?

那也沒有關系啊。

雖然這本書中的内容,或許有些部分對于你來說過于簡單,甚至有些啰嗦。

但你未必非要站在不具備基礎知識的讀者角度,來看它啊。

歡迎你幫我挑挑硬傷,改進這本書的品質。咱們可以共同協作,以避免“誤人子弟”的悲慘狀況發生。

告訴你一個小秘密——我的專欄和公衆号讀者裡面,不乏名牌大學資訊科學、計算機科學、統計學和數學專業的老師和研究所學生。

我曾經納悶,他們怎麼也來讀我的教程?

後來我弄明白了。

有的老師,是希望這些教程幫助自己的學生快速上手。

有的老師,是希望切磋教學用例,以及教學方法。

有的老師,是從專業的角度,幫我把關。

他們給了我很多的鼓勵,也提供了諸多有益的回報和點撥。在此,我向他們表示衷心的感謝!

是以你看,你并不孤獨。開放的資料科學教育,需要你這樣的專業人士貢獻自己一份力量。

Welcome on board!

喜歡請點贊和打賞。還可以微信關注和置頂我的公衆号

“玉樹芝蘭”(nkwangshuyi)

如果你對 Python 與資料科學感興趣,不妨閱讀我的系列教程索引貼《

如何高效入門資料科學?

》,裡面還有更多的有趣問題及解法。

繼續閱讀