天天看點

資料分析師=7大主題,24份資料

尤而小屋在等你

大家好,我叫Peter,一名愛好美食的資料分析師,公衆号【尤而小屋】的主人,一直在等你的到來喔😊

18年畢業後自學Python和資料相關的很多内容,轉行了資料分析,算是踏入了網際網路這個大環境。當然現在也還在繼續學習的路上。

資料分析師=7大主題,24份資料

資料分析師學什麼

如果你想轉行資料分析師,你該學習什麼,又該怎麼學?一張思維導圖告訴你:

資料分析師=7大主題,24份資料

下面我将自己使用過或者正在使用的資料以及一丢丢經驗分享給大家,希望對大家有所幫助,也歡迎一起交流:

  • 技能方面:Python、SQL、Excel、Hive
  • 機器學習算法:常見的機器學習算法,比如:K-近鄰、決策樹、随機森林、K-means聚類、PCA、支援向量機等
  • 資料可視化:資料的表現形式優先級:圖形 > 表格 > 文字,可視化圖形尤其是動态的可視化圖形能夠更好的展現資料結果
  • 資料模型與分析方法:RFM模型、海盜模型、漏鬥模型、杜邦分析模型等
  • 統計知識:資料分析是避不開統計的,比如各種資料分布、假設檢驗、中心極限定理等,重點需要掌握的一個點:A/B test
  • 資料營運工具:學習流行的資料分析開源工具,例如:神策、百度統計、Growing IO等
  • 軟技能:PPT制作、文檔輸出、思維導圖工具,比如:xmind、draw.io、百度腦圖、mindmaster等,甚至Axure等産品工具也需要掌握

技能

首先,作為一名資料分析師需要掌握的技能:Python、SQL、Excel、Hive。

MySQL/SQL

工作中正常的公司都有自己的資料庫,必須掌握從業務庫中快速擷取資料的能力。目前大部分的公司是MySQL和Hive,需要重點掌握它們二者的文法。

資料1:自己在網易雲看過的MySQL入門視訊:《MySQL入門到精通系列》,真的非常适合小白入門,從MySQL安裝,到4種語言,到查詢語句等,老師講解的非常詳細。

推薦指數:✨✨✨✨✨

視訊位址:https://study.163.com/course/courseMain.htm?courseId=1005092013

資料分析師=7大主題,24份資料

資料2:視訊入門還是挺快的,但經典書籍你也不能錯過:《SQL必知必會》,這絕對是你入門SQL不能錯過的書籍。

Peter自己看過2遍,寫過一篇總結,歡迎閱讀:

Hive

目前很多公司的資料已經從業務庫遷移到了Hive中,是以有些時候我們也可以直接通過hive在ods層進行資料的查詢

資料4:B站上面尚矽谷的Hive教程,資料位址:https://www.bilibili.com/video/BV1W4411B7cN?from=search&seid=14258581886020041832

推薦指數:✨✨✨✨

當然還是更推薦官網,畢竟權威,英語不會也要多啃:https://cwiki.apache.org/confluence/display/Hive/LanguageManual

Python

Python真的過于強大:從後端開發、爬蟲、資料分析、機器學習、深度學習、測試、金融量化投資、網絡安全等不同的領域都有着廣泛應用,如果真的是小白,如何入門呢?

資料5:首先在B站上面找一套視訊,從安裝Python環境開始跟着學習。将一整套視訊看下來,自己跟着敲,對這門語言有一個整體的概念,推薦一份的視訊:https://www.bilibili.com/video/BV1wD4y1o7AS?from=search&seid=6129245389392217030。網上視訊也很多,視訊最好堅持一套看完。

推薦指數:✨✨✨✨

資料6:看視訊入門快,但是看書系統地學習也是必經之路,尤其是Python有很多的經典書籍:《Python程式設計.從入門到實戰》,傳說中的蟒蛇書

推薦指數:✨✨✨✨✨

資料分析師=7大主題,24份資料

資料7:還有另外一本Python的動物書,也是經典之作,自己也在慢慢吸收中:《流暢的Python》,傳說中的蜥蜴書

推薦指數:✨✨✨✨✨

資料分析師=7大主題,24份資料

看完一套視訊,加上經典書籍,相信入門Python是不成問題的,慢慢啃呗!Excel不介紹,網上資料數不勝數,相信你自己的百度能力!

機器學習

吳恩達老師

如果你在步入機器學習的路上,吳恩達老師的大名你肯定聽過,絕對的大牛。介紹一門他的機器學習入門視訊,同樣是來自網易雲課堂:

資料8:《吳恩達機器學習》視訊,視訊位址:https://study.163.com/course/courseMain.htm?courseId=1004570029

推薦指數:✨✨✨✨✨

下面是Peter曾經整理的章節内容,供參考學習;

資料分析師=7大主題,24份資料

李航博士

現在很多的公司,特别是大廠,如果是資料分析師都要求一些常見的機器學習算法和模組化的知識,當然是在你已經入門Python的基礎上,最好使用Python做機器學習。下面👇推薦幾本入門機器學習的經典書籍,很多大廠的機器學習算法面試題都是出自書中。

資料9:李航老師的《統計學習方法》,目前已經是第二版,超級經典的一本書。講了很多機器學習的經典算法,從監督學習到無監督學習,推薦一份GitHub上的學習資料,包含代碼、學習文檔:https://github.com/fengdu78/lihang-code

推薦指數:✨✨✨✨✨

資料分析師=7大主題,24份資料

周志華老師

如果李航老師的書太過于理論,那麼看南京大學周志華老師的《機器學習》,各種案例講解機器學習算法的實戰,因為整本書都是以西瓜作為例子,那麼一起來吃瓜吧:

資料10:周志華老師《機器學習》西瓜書🍉,配套筆記學習更省力:https://github.com/Sophia-11/Machine-Learning-Notes

資料分析師=7大主題,24份資料

推薦指數:✨✨✨✨✨

不管是李航老師的《統計學習方法》,還是周志華老師的西瓜書,都涉及到了很多的公式,那麼由Datawhale,一個開源組織的成員,整理的南瓜書絕對是你的好幫手:

資料11:西瓜書的配套參考機器學習公式詳解,南瓜書位址:https://github.com/datawhalechina/pumpkin-book

資料分析師=7大主題,24份資料

Python資料庫

Python之是以強大,就是因為它有很多第三方的庫。在機器學習和資料分析方向最為出名的就是numpy和pandas。

numpy主要是進行數值和矩陣運算:

資料12:numpy中文官網:https://www.numpy.org.cn/;英文好的話,啃這裡:https://numpy.org/devdocs/user/absolute_beginners.html

推薦指數:✨✨✨✨✨

菜鳥教程中關于numpy也還不錯的:https://www.runoob.com/numpy/numpy-tutorial.html

推薦指數:✨✨✨✨

資料分析師=7大主題,24份資料

pandas主要是用于資料處理和資料分析:

資料13:官網學習位址:https://pandas.pydata.org/docs/reference/index.html;中文官網位址:https://www.pypandas.cn/

推薦指數:✨✨✨✨✨

資料分析師=7大主題,24份資料

當然,還是希望你跟着Peter的教程來入門和進階,詳細的代碼+豐富的案例,圖解形式。目前入門教程13篇已經完成,公衆号回複:pandas,即可進群領取學習資料。

資料14:Peter的《Pandas入門教程V1.0》,非常适合入門

推薦指數:✨✨✨✨✨

資料分析師=7大主題,24份資料
機器學習部分介紹完畢。如果你真的能夠啃下來,你已經可以往資料挖掘工程師,甚至是機器學習方向發展。但是資料分析師也要熟悉常見的算法,真的就慢慢啃吧!太卷了!

資料可視化

俗話說的好:一圖勝千言。當我們在展示資料的時候,圖優于表格,表格優于文字。是以你必須一定的資料可視化表達能力。

Python有很多的可視化庫,比如傳統且強大的靜态庫:matplotlib,seaborn等,pandas本身也是支援畫一些簡單的圖形。如果你想學習動态的可視化圖形,強烈推薦Peter的plotly教程,一個進階的可視化神器。目前已經完成12篇常見圖形的制作。

資料15:Peter的Plotly可視化圖形制作專欄。Plotly的文章會堅持下去,以後還會有進階使用方法Dash,計劃将來會出一本基于Plotly繪圖的Python可視化書籍,敬請期待!

推薦指數:✨✨✨✨✨

資料分析師=7大主題,24份資料

資料16:另外還推薦一個國産的可視化神器:pyecharts,基于Python+echarts的組合,也是非常厲害,支援國産,中文官網位址:https://gallery.pyecharts.org/#/README

推薦指數:✨✨✨✨✨

統計知識

資料總是離不開統計的,是以必須掌握常見的統計知識。推薦一個視訊和一本書:

資料17:可汗學院的《統計學》公開課,位址:http://open.163.com/newview/movie/courseintro?newurl=/special/Khan/khstatistics.html

推薦指數:✨✨✨✨

B站上面也可以觀看:https://www.bilibili.com/video/BV1i4411e7sT/

這門課是統計學入門課程,将涵蓋統計學所有的主要知識,包括:随機變量、均值方差标準差、統計圖表、機率密度、二項分布、泊松分布、正态分布、大數定律、中心極限定理、樣本和抽樣分布、參數估計、置信區間、伯努利分布、假設檢驗和p值、方差分析、回歸分析等内容。

資料18:一本書是《統計學》,魏宗舒,施錫铨等作者翻譯的

在這個知乎中問答中提到了很多的經典統計書籍,可以參考:https://zhuanlan.zhihu.com/p/350278749

推薦指數:✨✨✨✨

學完統計的基本知識,重點需要掌握一個知識點,也是很多大廠在面試的時候喜歡提問的一個知識點:A/B test。

“A/B測試不一定是最好的評估方法。它不是萬能的,但不會A/B測試肯定是不行的。”

—— 位元組跳動副總裁楊震原

資料19:推薦2篇文章來進行學習

1、A/B Testing:https://www.optimizely.com/optimization-glossary/ab-testing/

2、沒有最好,隻有A/B測試:https://mp.weixin.qq.com/s/PatFgf7c8QSi0MIAhFuY5A

推薦指數:✨✨✨✨✨

資料分析師=7大主題,24份資料

模型與分析方法

在資料分析的過程中,我們會接觸到很多的資料模型和分析方法:

資料20:多種資料分析的模型和分析方法

  • SWOT分析
  • PEST分析
  • 留存分析
  • 群組Corhort分析
  • 海盜模型AARRR
  • 馬斯洛需求模型
  • RFM模型
  • 漏鬥轉化模型
  • 5W3H模型
  • 使用者金字塔模型…...

上面👆的模型和分析不展開讨論,可以查詢資料學習。重點解釋下海盜模型:

AARRR是Acquisition、Activation、Retention、Revenue、Refer,這個五個單詞的縮寫,分别對應這一款移動應用生命周期中的5個重要環節,即擷取使用者、提高活躍度、提高留存率、擷取收入、病毒式傳播。

使用者營運

現在很多公司資料的部門會和營運崗位打交道,資料分析師或者資料産品崗位經常會接觸到埋點等任務,需要熟悉使用常見的資料營運工具:

資料21:神策、百度統計、Growing IO

其實當我們接觸到資料的時候,更多的是和使用者在間接打交道,資料幾乎都是使用者産生的。

資料22:下面推薦三本書,主要講解的是資料如何指導使用者營運

第一本《增長黑客》,增長黑客之父肖恩的傑作

推薦指數:✨✨✨✨✨

資料分析師=7大主題,24份資料

第二本:《矽谷.增長黑客實戰筆記》,作者是肖恩的徒弟曲卉

推薦指數:✨✨✨✨

資料分析師=7大主題,24份資料

第三本:《營運之光》,黃有璨老師的營運實戰經驗總結:

推薦指數:✨✨✨✨

資料分析師=7大主題,24份資料

軟技能

軟技能包含很多方面,從PPT制作、文字産出、思維導圖工具使用等,都需要我們長期積累和鍛煉:

  • 如何制作PPT,撰寫文案?
  • 如何輸出一份合格的資料分析報告?
  • 如何通過思維導圖工具來記錄知識點等…...

下面推薦兩個自己經常使用的思維導圖工具:

資料23:Xmind+Lighten(Xmind子産品,僅支援ios系統),比如文章開頭的思維導圖就是用Lighten繪制的;另一個是draw.io,一個線上也可以在本地繪圖的工具,支援各種圖形,十分強大,比如曾經繪制的數倉分層圖形:

位址:https://app.diagrams.net/#

推薦指數:✨✨✨✨✨

資料分析師=7大主題,24份資料

總結

如今的網際網路發展太快,很卷!需要學習的東西真的很多,從SQL、Python等的硬技能,到PPT、思維導圖等軟技能的掌握,都是我們需要學習和提升的點,希望本文對想轉行資料分析或者正在轉行資料的你有些幫助,歡迎一起交流學習。最後在推薦一本經典書籍:

資料24:《精益資料分析》,如何将資料分析運用在商業中。

推薦指數:✨✨✨✨✨

資料分析師=7大主題,24份資料
資料分析師=7大主題,24份資料

推薦閱讀

資料分析師=7大主題,24份資料

生日快樂:尤而小屋兩周歲啦

55個案例:吃透Python字元串格式化

圖解Pandas重複值處理

Python入門-字元串初相識

圖解Pandas的缺失值處理

尤而小屋,一個溫馨的小屋。小屋主人,一手代碼謀求生存,一手掌勺享受生活,歡迎你的光臨

繼續閱讀