不同于以往的授課式課堂風格,這次斯坦福大學的教授Hadley Wickham開設了一門論文讨論課。課程名為:Readings in Applied Data Science。要求學生每周閱讀3~4篇論文,并給出回報。
考慮到内向和不善表達的學生,課程采用Stephen D. Brookfield和Stephen Preskill的讨論手冊中的技巧來確定每個人都有機會參與課堂讨論。課程成績的評判也沒有采用傳統的結課考試,而是由課堂參與、讨論準備、課外閱讀筆記三部分得分構成。
Hadley Wickham教授已在網上貼出了這門課程的閱讀清單推薦,下面這些論文,你讀過哪些?
什麼是資料科學
資料科學家大多隻做算術,這是件好事—— Noah Lorang(2016)
https://m.signalvnoise.com/data-scientists-mostly-just-do-arithmetic-and-that-s-a-good-thing-c6371885f7f6
企業資料分析和可視化:面試研究——Sean Kandel,Andreas Paepcke,Joseph Hellerstein,Jeffrey Heer(2012)
https://idl.cs.washington.edu/papers/enterprise-analysis-interviews
50年的資料科學(OA預印本)——David Donoho(2017)(注:這是一份讨論檔案,許多着名的統計人員對評論做出了貢獻。)
https://www.tandfonline.com/doi/abs/10.1080/10618600.2017.1384734
資料收集和協作
整潔的資料——Hadley Wickham(2013)
https://www.jstatsoft.org/article/view/v059i10/
電子表格中的資料結構——Karl W Broman,Kara Woo(2017)
https://peerj.com/preprints/3183/
在資料項目中使用Google表格的最佳做法——Matthew Lincoln (2018)
https://matthewlincoln.net/2018/03/26/best-practices-for-using-google-sheets-in-your-data-project.html
軟體工程
資料科學家的軟體開發技能——Trey Causey(2015)
http://treycausey.com/software_dev_skills.html
打擾一下,你有沒有時間談論版本控制?——Jennifer Bryan (2017)
https://peerj.com/preprints/3159/
足夠好的科學計算實踐——Greg Wilson,Jennifer Bryan,Karen Cranston,Justin Kitzes,Lex Nederbragt,Tracy K. Teal(2017)
http://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1005510
DevOps
介紹Docker進行可重複研究,并以R環境為例——Carl Boettiger(2014)
https://arxiv.org/abs/1410.0846
機器學習:技術債務的高利息信用卡——D.Sculley,Gary Holt,Daniel Golovin,Eugene Davydov,Todd Phillips,Dietmar Ebner,Vinay Chaudhary,Michael Young(2015)
https://research.google.com/pubs/pub43146.html
教學
統計學入門課程:托勒密體系?——George W Cobb (2013)
https://escholarship.org/uc/item/6hb3k0nz
資料科學教育的民主化——Sean Kross,Roger D Peng,Brian S Caffo,Ira Gooding,Jeffrey T Leek(2017)
https://peerj.com/preprints/3195/
教授資料科學統計——Danny Kaplan (2017)
https://peerj.com/preprints/3205/
資料道德
倫理資料科學家——Cathy O'Neil (2016)
http://www.slate.com/articles/technology/future_tense/2016/02/how_to_bring_better_ethics_to_data_science.html
大資料,機器學習和社會科學——Hannah Wallach(2014)
https://medium.com/@hannawallach/big-data-machine-learning-and-the-social-sciences-927a8e20460d
資料科學道德準則——DJ Patil(2018)
統計實踐的道德準則——美國統計協會職業道德委員會(2016年)
http://www.amstat.org/ASA/Your-Career/Ethical-Guidelines-for-Statistical-Practice.aspx
可複用性
計算科學最佳實踐——Victoria Stodden, Sheila Miguez (2014)
https://openresearchsoftware.metajnl.com/articles/10.5334/jors.ay/
rOpenSci如何使用代碼評審來促進可複用的科學——Noam Ross,Scott Chamberlain,Karthik Ram,MaëlleSalmon(2017)
https://ropensci.org/blog/2017/09/01/nf-softwarereview/
工作流程
平易近人的社會科學導論——Kieran Healy (2016)
http://plain-text.co/
打開筆記本曆史——Caleb Daniels(2013)
http://wcm1.web.rice.edu/open-notebook-history.html
如何成為現代科學家——Jeff Leek(2016)
https://leanpub.com/modernscientist
業界
在Twitter上做資料科學——Robert Chang(2015)
https://medium.com/@rchang/my-two-year-journey-as-a-data-scientist-at-twitter-f0c13298aee6
程師不應該寫ETL建構一個高功能資料科學體系的指南——Jeff Magnusson(2016)
https://multithreaded.stitchfix.com/blog/2016/03/16/engineers-shouldnt-write-etl/
在Airbnb上使用R包和教育來發展資料科學——裡卡多比昂(2016)
https://medium.com/airbnb-engineering/using-r-packages-and-education-to-scale-data-science-at-airbnb-906faa58e12d
Instacart的資料科學——Jeremy Stanley(2017)
https://tech.instacart.com/data-science-at-instacart-dabbd2d3f279
.rprofile:Jenny Bryan——Kelly O'Briant(2017)
https://tech.instacart.com/data-science-at-instacart-dabbd2d3f279
營銷資料科學——Erik Oberg(2018)
https://medium.com/indeed-data-science/marketing-for-data-science-a-7-step-go-to-market-plan-for-your-next-data-product-60c034c34d55
職業發展
在資料科學就業市場上的感覺如何——Trey Causey(2016)
http://treycausey.com/data_science_interviews.html
學術求職建議——Matt Might
資料科學中的冒充者綜合征——Caitlin Hudon(2018年)
https://caitlinhudon.com/2018/01/19/imposter-syndrome-in-data-science/
原文釋出時間為:2018-03-29
本文作者:文摘菌