天天看點

學界 | 斯坦福資料科學Phd新課放出閱讀清單,你讀過哪些?

不同于以往的授課式課堂風格,這次斯坦福大學的教授Hadley Wickham開設了一門論文讨論課。課程名為:Readings in Applied Data Science。要求學生每周閱讀3~4篇論文,并給出回報。

學界 | 斯坦福資料科學Phd新課放出閱讀清單,你讀過哪些?

考慮到内向和不善表達的學生,課程采用Stephen D. Brookfield和Stephen Preskill的讨論手冊中的技巧來確定每個人都有機會參與課堂讨論。課程成績的評判也沒有采用傳統的結課考試,而是由課堂參與、讨論準備、課外閱讀筆記三部分得分構成。

Hadley Wickham教授已在網上貼出了這門課程的閱讀清單推薦,下面這些論文,你讀過哪些?

什麼是資料科學

資料科學家大多隻做算術,這是件好事—— Noah Lorang(2016)

https://m.signalvnoise.com/data-scientists-mostly-just-do-arithmetic-and-that-s-a-good-thing-c6371885f7f6

企業資料分析和可視化:面試研究——Sean Kandel,Andreas Paepcke,Joseph Hellerstein,Jeffrey Heer(2012)

https://idl.cs.washington.edu/papers/enterprise-analysis-interviews

50年的資料科學(OA預印本)——David Donoho(2017)(注:這是一份讨論檔案,許多着名的統計人員對評論做出了貢獻。)

https://www.tandfonline.com/doi/abs/10.1080/10618600.2017.1384734

資料收集和協作

整潔的資料——Hadley Wickham(2013)

https://www.jstatsoft.org/article/view/v059i10/

電子表格中的資料結構——Karl W Broman,Kara Woo(2017)

https://peerj.com/preprints/3183/

在資料項目中使用Google表格的最佳做法——Matthew Lincoln (2018)

https://matthewlincoln.net/2018/03/26/best-practices-for-using-google-sheets-in-your-data-project.html

軟體工程

資料科學家的軟體開發技能——Trey Causey(2015)

http://treycausey.com/software_dev_skills.html

打擾一下,你有沒有時間談論版本控制?——Jennifer Bryan (2017)

https://peerj.com/preprints/3159/

足夠好的科學計算實踐——Greg Wilson,Jennifer Bryan,Karen Cranston,Justin Kitzes,Lex Nederbragt,Tracy K. Teal(2017)

http://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1005510

DevOps

介紹Docker進行可重複研究,并以R環境為例——Carl Boettiger(2014)

https://arxiv.org/abs/1410.0846

機器學習:技術債務的高利息信用卡——D.Sculley,Gary Holt,Daniel Golovin,Eugene Davydov,Todd Phillips,Dietmar Ebner,Vinay Chaudhary,Michael Young(2015)

https://research.google.com/pubs/pub43146.html

教學

統計學入門課程:托勒密體系?——George W Cobb (2013)

https://escholarship.org/uc/item/6hb3k0nz

資料科學教育的民主化——Sean Kross,Roger D Peng,Brian S Caffo,Ira Gooding,Jeffrey T Leek(2017)

https://peerj.com/preprints/3195/

教授資料科學統計——Danny Kaplan (2017)

https://peerj.com/preprints/3205/

資料道德

倫理資料科學家——Cathy O'Neil (2016)

http://www.slate.com/articles/technology/future_tense/2016/02/how_to_bring_better_ethics_to_data_science.html

大資料,機器學習和社會科學——Hannah Wallach(2014)

https://medium.com/@hannawallach/big-data-machine-learning-and-the-social-sciences-927a8e20460d

資料科學道德準則——DJ Patil(2018)

統計實踐的道德準則——美國統計協會職業道德委員會(2016年)

http://www.amstat.org/ASA/Your-Career/Ethical-Guidelines-for-Statistical-Practice.aspx

可複用性

計算科學最佳實踐——Victoria Stodden, Sheila Miguez (2014)

https://openresearchsoftware.metajnl.com/articles/10.5334/jors.ay/

rOpenSci如何使用代碼評審來促進可複用的科學——Noam Ross,Scott Chamberlain,Karthik Ram,MaëlleSalmon(2017)

https://ropensci.org/blog/2017/09/01/nf-softwarereview/

工作流程

平易近人的社會科學導論——Kieran Healy (2016)

http://plain-text.co/

打開筆記本曆史——Caleb Daniels(2013)

http://wcm1.web.rice.edu/open-notebook-history.html

如何成為現代科學家——Jeff Leek(2016)

https://leanpub.com/modernscientist

業界

在Twitter上做資料科學——Robert Chang(2015)

https://medium.com/@rchang/my-two-year-journey-as-a-data-scientist-at-twitter-f0c13298aee6

程師不應該寫ETL建構一個高功能資料科學體系的指南——Jeff Magnusson(2016)

https://multithreaded.stitchfix.com/blog/2016/03/16/engineers-shouldnt-write-etl/

在Airbnb上使用R包和教育來發展資料科學——裡卡多比昂(2016)

https://medium.com/airbnb-engineering/using-r-packages-and-education-to-scale-data-science-at-airbnb-906faa58e12d

Instacart的資料科學——Jeremy Stanley(2017)

https://tech.instacart.com/data-science-at-instacart-dabbd2d3f279

.rprofile:Jenny Bryan——Kelly O'Briant(2017)

https://tech.instacart.com/data-science-at-instacart-dabbd2d3f279

營銷資料科學——Erik Oberg(2018)

https://medium.com/indeed-data-science/marketing-for-data-science-a-7-step-go-to-market-plan-for-your-next-data-product-60c034c34d55

職業發展

在資料科學就業市場上的感覺如何——Trey Causey(2016)

http://treycausey.com/data_science_interviews.html

學術求職建議——Matt Might

資料科學中的冒充者綜合征——Caitlin Hudon(2018年)

https://caitlinhudon.com/2018/01/19/imposter-syndrome-in-data-science/

原文釋出時間為:2018-03-29

本文作者:文摘菌

繼續閱讀