天天看點

七周成為資料分析師—Excel技巧篇

本文是《<b>七周成為資料分析師</b>》的第二篇教程,如果想要了解寫作初衷,可以先行閱讀七周指南。溫馨提示:如果您已經熟悉excel,大可不必再看這篇文章,或隻挑選部分。

<b>快捷鍵</b>

excel的快捷鍵很多,以下主要是能提高效率。

ctrl+方向鍵,對單元格光标快速移動,移動到資料邊緣(空格位置)。

ctrl+shift+方向鍵,對單元格快讀框選,選擇到資料邊緣(空格位置)。

ctrl+空格鍵,標明整列。

shift+空格鍵,標明整行。

ctrl+a,選擇整張表。

alt+enter,換行。

ctrl+enter,以目前單元格為始,往下填充資料和函數。

ctrl+s,快讀儲存,你懂的。

ctrl+z,撤回目前操作。

如果是效率達人,可以學習更多快捷鍵。mac使用者的ctrl一般需要用command替換。

<b>格式轉換</b>

excel的格式及轉換很容易忽略,但格式會如影随形伴随資料分析者的一切場景,是後續sql和python資料類型的基礎。

通常我們将excel格式分為數值、文本、時間。數值常見整數型 int和小數/浮點型 float。兩者的界限很模糊。在sql和python中,則會牽扯的複雜,涉及運算效率,計算精度等。文本分為中文和英文,存儲位元組,字元長度不同。中文很容易遇到編碼問題,尤其是python2。win和mac環境也有差異。大家遇到的亂碼一般都屬于中文編碼錯誤。時間格式在excel中可以和數值直接互換,也能用加減法進行天數換算。

時間格式有不同表達。例如2016年11月11日,2016/11/11,2016-11-11等。當資料源多就會變得混亂。我們可以用自定義格式規範時間。這裡了解一下時間格式的概念,列舉是一些較通用的範例(不同程式設計語言還是有差異的)。

yyyy代表通配的四位數年格式

mm代表通配的兩位數月格式

dd代表通配的兩位數日格式

hh代表通配的的兩位數小時(24小時)格式

hh代表通配的兩位數小(12小時制)格式

mm代表通配的兩位數分格式

ss代表通配的兩位數秒格式

例如2016/11/11可以寫成:yyyy/mm/dd,2016-11-11 23:59:59可以寫成:yyyy-mm-dd hh:mm:ss。

七周成為資料分析師—Excel技巧篇

<b>數組</b>

數組很多人都不會用到,甚至不知道有這個功能。依舊是資料分析越往後用到越多,它類似r語言的array和python的list。數組由多個元素組成。普通函數的計算結果是一個值,數組類函數的計算結果傳回多個值。數組用大括号表示,當函數中使用到數組,應該用ctrl+shift+enter輸入,不然會報錯。

先看數組的最基礎使用。選擇a1:d1區域,輸入={1,2,3,4}。記住是大括号。然後ctrl+shift+enter。我們發現數組裡的四個值被分别傳到四個單元格中,這是數組的獨有用法。

七周成為資料分析師—Excel技巧篇

我們再來看一下數組和函數的應用。利用{},我們能做到1比對a,2比對b,3比對c。也就是一一對應。專業說法是mapping。

=lookup(查找值,{1,2,3},{"a","b","c"})

excel的數組具體應用,大家可以搜尋學習,可以提高一定的效率。但是python的數組更為強大,我的重點就不放在這塊了。

<b>分列</b>

excel可以将多個單元格的内容合并,但是不擅長拆分。分列功能可以将某一列按照特定規則拆分。常常用來進行資料清洗。

七周成為資料分析師—Excel技巧篇

上文我有一列地區的資料,我想要将市和區分成兩列。我們可以用mid和find函數查找市截取字元。但最快的做法就是用“市”分列。sql和python中有類似的spilt ( )函數。

七周成為資料分析師—Excel技巧篇

<b>合并單元格</b>

單元格作為報表整理使用,除非是最終輸出格式,例如列印。否則不要随意合并單元格。一旦使用合并單元格,絕大多數函數都不能正常使用,影響批量的資料處理和格式轉換。合并單元格也會造成python和sql的讀取錯誤。

<b>資料透視表</b>

資料透視表是非常強大的功能,當初學會時驚為天人。資料透視表的主要功能是将資料聚合,按照各子段進行sum( ),count( )的運算。下圖我選擇我選擇想要計算的資料,然後點選建立透視表。

七周成為資料分析師—Excel技巧篇

此時會建立一個sheet,這是資料透視表的優點,将原始資料和彙總計算資料分離。資料透視表的核心思想是聚合運算,将字段名相同的資料聚合起來,所謂數以類分。列和行的設定,則是按不同軸向展現資料。簡單說,你想要什麼結構的報表,就用什麼樣的拖拽方式。聚合功能有一點類似sql中的gorup by,python中則有更為強大的pandas.pivot_table( )。

七周成為資料分析師—Excel技巧篇

<b>删除重複項</b>

一種資料清洗和檢驗的快速方式。想要驗證某一列有多少個唯一值,或者資料清洗,都可以使用。類似sql中的distinct ,python中的set

<b>條件格式</b>

條件格式可以當作資料可視化的應用。如果我們要使用函數在大量資料中找出前三的值,可能會用到rank( )函數,排序,然後過濾出1,2,3。用條件格式則是另外一種快速方法,直接用顔色标出,非常直覺。

七周成為資料分析師—Excel技巧篇

<b>當機首行首列</b>

excel的首行一般是各字段名header,俗稱表頭,當行數和列數過多的時候,觀察資料比較麻煩。我們可以通過固定住首行,友善浏覽和操作。header是一個較為重要的概念。在python和r中,read_csv函數,會有一個專門的參數header=true,來判斷是否讀取表頭作為columns的名字。

<b>自定義下拉菜單(資料有效性)</b>

資料有效性是一種限制,針對單元格限制其輸入,也就是讓其隻能固定幾個值。下拉菜單是一種高階應用,通過允許下拉箭頭即可。

七周成為資料分析師—Excel技巧篇
七周成為資料分析師—Excel技巧篇

<b>自定義名稱</b>

自定義名稱是一個很好用的技巧,我們可以為一個區域,變量、或者數組定義一個名稱。後續要經常使用的話,直接引用即可,無需再次定位。這是複用的概念。

七周成為資料分析師—Excel技巧篇

我們将a1:a3區域命名為num,直接使用=sum(num) ,等價于sum(a1:a3)。

七周成為資料分析師—Excel技巧篇

新手們了解資料庫,可以将其想象成無數張表sheet。每一張表都有自己唯一的名字,就像上圖的num一樣。資料庫操作就是引用表名進行查找、關聯等操作。使用sum,count等函數。

<b>查找公式錯誤</b>

公式報錯也不知道錯在哪裡的時候可以使用,尤其是各類if嵌套或者多表關聯,邏輯複雜時。查找公式錯誤是逐漸運算的,友善定位。

七周成為資料分析師—Excel技巧篇

<b>分組和分級顯示</b>

分組和分級顯示,常用在報表中,在報表行數多到一定程度時,通過分組達到快速切換和隐藏的目的。越是專業度的報表(咨詢、财務等),越可以學習這塊。在資料菜單下。

七周成為資料分析師—Excel技巧篇

<b>分析工具庫</b>

分析工具庫是高階分析的利器,包含很多統計計算,檢驗功能等工具。excel是預設不安裝的,要安裝需要附加元件,在工具菜單下(不同版本安裝方式會有一點小差異)。

七周成為資料分析師—Excel技巧篇

分析工具庫是統計包,規劃求解是計算最優解,類似決策樹。這兩者的分析方法以後詳細論述。mac似乎有閹割。

<b>第三方應用</b>

excel是支援第三方插件的,第三方插件擁有非常強大的功能。甚至完成bi的工作。應用商店裡微軟的power系列都挺好的。下圖就是power map

七周成為資料分析師—Excel技巧篇

第三方應用商店mac沒有,非常可惜。win使用者請用最新版本,老版本是沒有插件的。

主要的excel技巧和函數已經都教授給大家。excel博大精深,有一句說的挺好,我們大部分實際用到的功能隻有20%。熟練掌握這20%功能,日常工作足夠應付。重要的還是解決問題的能力。接下來是excel實戰内容,下一篇文章會直接用到5000行真實的資料分析師的職位資料。沒錯,用資料分析師的資料進行分析,有點拗口。

本文轉載自阿裡雲合作媒體51cto,作者秦路,微信tracykanc。

相關文章: