天天看點

隔離太無聊?每天一個資料科學項目,資料集都準備好了!

大資料文摘出品

來源:medium

編譯:張大筆茹、夏雅薇

首先,我想向所有的護士,醫生,超市員工,公共管理人員以及其他冒着生命危險為我們服務的人緻敬。

不要把這一切當成理所當然的,他們做出了很大的貢獻,而我們能做的是盡可能在此期間花些時間學習新技能,讀書和提高自己。對于那些對資料,資料分析或資料科學感興趣的人,我提供了一份可以利用業餘時間完成的資料科學項目清單,一共14個!

項目分為三種類型:

  • 可視化項目
  • 探索性資料分析(EDA)項目
  • 預測模組化

可視化項目

最容易上手的就是資料可視化, 以下三個資料集可以用于建立一些有意思的的可視化效果并加到你的履歷中。

新冠病毒可視化

學習如何使用Plotly建構動态可視化資料,展示冠狀病毒是如何在全球範圍内傳播的。Plotly很好用,它可以做動态可視化,好看且操作簡單。

隔離太無聊?每天一個資料科學項目,資料集都準備好了!

難易程度:簡單

資料集:

https://www.kaggle.com/sudalairajkumar/novel-corona-virus-2019-dataset

教程:

https://towardsdatascience.com/visualizing-the-coronavirus-pandemic-with-choropleth-maps-7f30fccaecf5

澳洲大火資料可視化

隔離太無聊?每天一個資料科學項目,資料集都準備好了!

2019-2020年的叢林大火季,也稱為黑色夏天,由2019年6月開始的幾場極端野火組成的。據維基百科統計,這場大火燒毀了約1,860萬公頃的土地和5,900多座建築物。

這是一個有趣的項目,可以利用Plotly或Matplotlib資料可視化工具來可視化野火的規模和對地理的影響。

難易程度:簡單

資料集:

https://www.kaggle.com/carlosparadis/fires-from-space-australia-and-new-zeland

地表溫度可視化

隔離太無聊?每天一個資料科學項目,資料集都準備好了!

你是否懷疑過全球變暖的觀點?建立一些資料可視化效果,顯示地球表面溫度如何随時間變化,并可以通過建立折線圖或其他動畫的Choropleth貼圖來實作!也可以建立一個預測模型來預測未來五十年内地球的溫度。

難易程度:介于簡單到中等之間

資料集:

https://www.kaggle.com/berkeleyearth/climate-change-earth-surface-temperature-data/kernels

探索性資料分析項目

探索性資料分析(EDA),也稱為資料挖掘,意思是資料分析過程中使用了多種技術來更好了解資料。

紐約Airbnb資料挖掘

自2008年以來,Airbnb使遊客和房東出行更友善,提出更多個性化的體驗世界的方式。該資料集包含有關2019年紐約出租的資訊以及包含其地理資訊,價格,評論數量等。

隔離太無聊?每天一個資料科學項目,資料集都準備好了!

可以分析的一些角度如下:

  • 哪些區域生意最好,為什麼?
  • 哪些區域的流量比其他區域大,為什麼?
  • 價格,評論數量和預訂天數之間是否存在一些關系?

難易程度:中等

資料集:

https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data

哪些因素與員工離職和績效有關

IBM公開了一個綜合資料集,可以使用它來了解各種因素如何影響員工的流失率和滿意度。一些變量包括教育程度,工作相關性,績效評估和工作生活平衡程度等。

隔離太無聊?每天一個資料科學項目,資料集都準備好了!

分析此資料集,找到任何确實影響員工滿意度的變量,另外,還可以看看是否可以對變量進行重要程度排名。

難易程度:簡單

資料集:

https://www.kaggle.com/pavansubhasht/ibm-hr-analytics-attrition-dataset

世界大學排名

你認為你的國家擁有世界上最好的大學嗎?成為“最好”大學的衡量标準是什麼?該資料集包含三個全球大學排名方式。使用此資料,你是否可以回答以下問題:

頂尖的大學都在哪些國家?

決定世界排名的主要因素是什麼?

隔離太無聊?每天一個資料科學項目,資料集都準備好了!

難易程度:簡單

資料集:

https://www.kaggle.com/mylesoneill/world-university-rankings

飲酒與在校表現

喝酒會影響學生的成績嗎?如果不會,那有什麼别的影響嗎?這個資料是從中學數學和葡萄牙語課程的學生進行的一項調查中獲得的。它包含幾個變量,例如飲酒量,家庭人數,參與課外活動。

隔離太無聊?每天一個資料科學項目,資料集都準備好了!

利用這些資料,挖掘學校成績與各種因素之間的關系。另外,看看是否可以根據其他變量來預測學生的成績!

難易程度:簡單

資料集:

https://www.kaggle.com/uciml/student-alcohol-consumption

寵物小精靈資料挖掘

對所有遊戲玩家來說,這是一個包含來自七代802個 Pokemon的資訊資料集。試着回答以下幾個問題!

  • 哪一代寵物小精靈最強?哪代最弱?
  • 哪種類型神奇寶貝最強?哪種最弱?
  • 能否建立分類器來識别神奇寶貝?
  • 身體特征與力量狀态(進攻,防守,速度等)之間是否有相關性?
隔離太無聊?每天一個資料科學項目,資料集都準備好了!

難易程度:簡單

資料集:

https://www.kaggle.com/rounakbanik/pokemon

探索影響預期壽命的因素

世衛組織建立了一段時間内所有國家健康狀況的資料集,其中包括預期壽命,成人死亡率等方面的統計資料。使用此資料集,探索各種變量之間的關系,預測對預期壽命的最大影響因素是什麼?

請嘗試回答以下問題:

  • 最初選擇的各種預測因素是否真的影響預期壽命?實際影響預期壽命的預測變量有哪些?
  • 預期壽命值低于(<65)的國家是否應該增加其醫療保健支出以改善其平均壽命?
  • 嬰兒和成人死亡率如何影響預期壽命?
  • 預期壽命與飲食習慣,生活方式,運動,吸煙,飲酒等是正相關還是負相關?
  • 是否接受教育對人類壽命有何影響?
  • 預期壽命與飲酒是正相關還是負相關?
  • 人口稠密的國家的預期壽命是否有降低的趨勢?
  • 免疫覆寫率對預期壽命有什麼影響?

難易程度:簡單

資料集:

https://www.kaggle.com/kumarajarshi/life-expectancy-who

預測模型

能源消耗的時間序列預測

隔離太無聊?每天一個資料科學項目,資料集都準備好了!

該資料集由美國區域傳輸組織PJM網站上的功耗資料組成,使用此資料集,檢視是否可以建構時間序列模型來預測能耗。除此之外,還可以檢視是否可以找到一天中每個小時的趨勢,假日用電量以及長期趨勢!

難度:中進階

資料集:

https://www.kaggle.com/robikscube/hourly-energy-consumption

貸款預測

隔離太無聊?每天一個資料科學項目,資料集都準備好了!

該資料集取自Analytics Vidhya,包括 615行和13列有關已準許和尚未準許的曆史貸款資訊。你是否可以建立一個模型來預測貸款是否會獲批。

難易程度:簡單

資料集:

https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/

二手車價格電腦

隔離太無聊?每天一個資料科學項目,資料集都準備好了!

Craigslist是全球最大的二手車經銷商,該資料集由Craigslist的抓取資料組成,每隔幾個月更新一次。使用此資料集,檢視是否可以建立一個資料集來預測一輛汽車價格是否被高估或低估了。

難易程度:中等

資料集:

https://www.kaggle.com/austinreese/craigslist-carstrucks-data

信用卡欺詐檢測

隔離太無聊?每天一個資料科學項目,資料集都準備好了!

該資料集顯示了兩天内發生的交易,其中284,807筆交易中有492筆欺詐。資料高度正态分布,欺詐占所有交易的0.172%。學習如何使用不正太的資料集并建立信用卡欺詐檢測模型。

難易程度:中進階

資料集:

https://www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets

皮膚癌圖像檢測

隔離太無聊?每天一個資料科學項目,資料集都準備好了!

通過10,000多張圖像來建構神經網絡來檢測皮膚癌。這絕對是最難的項目,需要有關神經網絡和圖像識别的儲備知識。

難易程度:難

資料集:

https://www.kaggle.com/kmader/skin-cancer-mnist-ham10000

相關報道:

https://towardsdatascience.com/14-data-science-projects-to-do-during-your-14-day-quarantine-8bd60d1e55e1