一:注意事項
寫履歷注意事項(準備兩份,一份發給别人的,一份留給自己的)
1.薪資要寫的高一些
2.工作經曆:一般在一個公司待兩年,少于兩年的話,可能就會問
為什麼離職?(不要說上一家公司的壞處),
你在我這裡能待多長時間?
人事可能會問其他的問題你的優點是什麼?你的缺點是什麼?(晚上睡覺比較晚,喜歡加班,平時比較懶…)
3.如果有工作經驗, 人家可能會問離職了麼?有沒有離職證明?(主要是公司怕吃官司,有了離職證明就沒事了,哪怕離職證明是假的)
4.職業技能如何寫?
要把特别強的項目放在前面,前面兩個可以寫精通和掌握的(hive的分桶,hive如何處理資料傾斜的,hive的壓縮格式,hive的動态分區),後面寫熟悉的,把工作的内容限定在一個小框框内,其他的就是了解,知識體系應該是T型的人家一問都答不上來(不要讓面試官覺得什麼都會,什麼都答不上來),重要的是大資料的架構,存儲(Redis),ETL的存儲,這些東西要弄通透(比如資料清洗–>對于hive很熟,或者hbase),R語言,Python,Flume等問題不大,都是小問題,可以分成幾個大的子產品或者樹形結構,一定要把重要的熟練的放在前面(類似java多線程io程式設計等),不太好的放在後面
在中國和國外的面試是不一樣的,在中國面試的時候是多少,進去就是多少,如果不是太水的話,是不會讓你出來的,但是在國外就不一樣了,在中國就是一錘子買賣。
要誇大優化,不要寫的太普通,要與衆不同,寫履歷裡面要有賣點,履歷中挖坑,讓别人去問。面試的時候不管說的對還是錯,都要說的斬釘截鐵。(為什麼你這個跑的這麼慢呢?伺服器配置比較low,業務比較複雜,沒有做優化。為什麼跑的這麼快?我伺服器配置好,業務簡單,優化的好)
大的公司會問一些思考的問題,小公司問一些填空題。
面試的時候就是一個心态,兩個人是聊技術,是溝通,是交流,不要讓面試官老問我,如果回答的結結巴巴,人家問的越問越簡單那基本就沒戲了,越問越深就是試你的功夫的深淺
5.大資料的項目4-6個月
很多個版本都是要更新疊代的,時間的長短–項目做的粗細
項目名稱 酒仙網日志分析系統V2.0版本,帶一個版本,顯得比較高大一些,
項目描述,幹什麼的,用來解決什麼樣的問題
開發環境與技術,
項目職責,是别人關心的,不要寫的太細,你寫的有些技術比如說Flume,人家可能會問(這裡面用Flume,你為什麼要用Flume?)
絕大部分精力一般都放在第一個項目上,一些資料(開發周期,項目長時間,伺服器配置,日浏覽量等等)都估測好,面試的時候要想一下在說,有感情的朗讀課文,
6.自我評價
工作比較熱心,積極向上的
7.履歷往哪裡投放?
首選,boss,拉鈎
其次,獵聘,智聯
8.筆試題,有些答案已将做了,背下來
9.面試要善于總結,每天安排好上午一家,下午一家,準備兩周,面試兩周,面試的時候,第一周把不怎麼想要去的公司放在第一周,練一練手,第一周保持平靜的心情,統計一下市面上哪些東西問的比較多
10.筆試題帶回來,就業資訊

二:項目部分
資料的産生:(我們需要了解的)
1.網站的日志,遊戲的日志,APP的日志。
2.電商訂單。
3.保險,銀行的資料。
4.網絡封包。
5.營運商的項目,網絡資訊,通話記錄,上網記錄。
資料采集:
1.flume采集,flume可以監控一個目錄,一個端口。
2.sqoop資料遷移工具,從RDBM遷移到Hadoop叢集。
3.前期的測試時直接從甲方拿的硬碟,系統開發完成後,專門派人過去做實施。
4.ftp傳輸,慢。實時性強的需求做不了。
flume+kafka +storm/sparkstreaming
kafka+flume +sparkstreaming
比如說,日活10w,需要1w台伺服器來支撐。
一般情況下,我們需要部署3W台伺服器。
資料采集:Flume NG Logstash sqoop
資料存儲:HDFS HBase Hive Kafka
資料分析:Hive MR Spark streaming SQL Storm
資料展示:Echarts Excel表格
網站點選流項目:
項目名稱:可以寫一些電商網站,旅遊網站,APP的名稱。名稱盡量高大點!!不要帶網站的名字。但是我們需要了解這家網站的主營業務,網站不能是淘寶,京東,亞馬遜這些大網站,盡量找一些中小型的網站。
找一些不是很出名,但是網站看着還是很正規的電商平台。
ASS(B2B電商網站使用者行為智能分析系統)
使用者Session智能分析平台
項目所用技術:Flume/logstash,HDFS,MapReduce/Spark,Hive/SparkSQL/impala(互動式查詢,速度快,基于記憶體),
Mysql,Sqoop,Zookeeper,SSH。
每一個架構的版本。
CDH還是HDP,不可能用Apache的。
CDH,版本5.3~5.12,選一個記住。5.8
HDP,版本2.4~2.8,選一個記住。2.6
項目周期:寫好日期,2019.6-2020.1。時間是6-8個月。
項目分析:讨論項目的需求,以及架構的選擇,不隻是選擇架構,還要選擇版本,因為版本的更疊,導緻功能的不斷完善,我們的項目中可能會用到某些功能。
搭建叢集:1~2周。7台機器,搭建完成,下午開會,需求改了, 叢集版本不一樣了,rm -rf /opt/*
項目開發:5個月。一部分時間是你自己做開發的,一部分時間是修改自己寫下的bug,一部分時間是打滑的。項目進行到一半,項目經理百分之百會給你改個需求,或者加需求,或者要求優化你的程式。
代碼稽核:我們寫好的代碼,要講。一周或者兩周進行一次代碼稽核。
項目架構:flume+HDFS+MR+HDFS+Hive+sqoop+mysql
項目描述:主要就是名額:
職責描述:
叢集搭建+叢集維護+需求分析+hive優化+架構選型
1.将Nginx中的網站原始日志使用flume采集到HDFS中,通過shell腳本定時監控。
2.通過MRjob清洗髒資料,并對Session進行局部聚合,解決聚合中發生的資料傾斜問題。
3.用hive進行網站的pv,uv,使用者注冊數,使用者留存率進行多元度分析統計
叢集規模:
資料量100G,日活100W,1人1天100條 1億條資料,
伺服器配置:10台伺服器 8T 128G
模組化就是指的建立表,為了後期寫sql腳本分析資料。一個好的模型,能讓你事半功倍。
首先整理表:幾張表,表的名字,18_log_user_viesit_sys_…_logtable,内容,也就是字段大概其有些什麼。
别人可能會問你,為什麼這樣建立這個模型,為了友善我們後期寫sql進行分析。具體的舉一個例子
XX網站名額:至少十五個稍微複雜點的名額,不算常見的這些PV,UV,轉化率這些名額。
要求是,知道怎麼算出來的,并且sql的關鍵字要記住。
架構的版本。
1)基礎分析(PV,IP,UV)
趨勢分析:根據標明的時段,提供網站流量資料,通過流量趨勢變化形态,為您分析網站訪客的通路規律、網站發展狀況提供參考。
對比分析:根據標明的兩個對比時段,提供網站流量在時間上的縱向對比報表,幫您發現網站發展狀況、發展規律、流量變化率等。
目前線上:提供目前時刻站點上的訪客量,以及最近15分鐘流量、來源、受訪、訪客變化情況等,友善使用者及時了解目前網站流量狀況。
通路明細:提供最近7日的訪客通路記錄,可按每個PV或每次通路行為(訪客的每次會話)顯示,并可按照來源、搜尋詞等條件進行篩選。 通過通路明細,使用者可以詳細了解網站流量的累計過程,進而為使用者快速找出流量變動原因提供最原始、最準确的依據。
來源分析
來源分類:提供不同來源形式(直接輸入、搜尋引擎、其他外部連結、站内來源)、不同來源項引入流量的比例情況。通過精确的量化資料,幫助使用者分析什麼類型的來路産生的流量多、效果好,進而合理優化推廣方案。
搜尋引擎:提供各搜尋引擎以及搜尋引擎子産品引入流量的比例情況。從搜尋引擎引入流量的的角度,幫助使用者了解網站的SEO、SEM效果,進而為制定下一步SEO、SEM計劃提供依據。
搜尋詞:提供訪客通過搜尋引擎進入網站所使用的搜尋詞,以及各搜尋詞引入流量的特征和分布。幫助使用者了解各搜尋詞引入流量的品質,進而了解訪客的興趣關注點、網站與訪客興趣點的比對度,為優化SEO方案及SEM提詞方案提供詳細依據。
最近7日的訪客搜尋記錄,可按每個PV或每次通路行為(訪客的每次會話)顯示,并可按照訪客類型、地區等條件進行篩選。為您搜尋引擎優化提供最詳細的原始資料。
來路域名:提供具體來路域名引入流量的分布情況,并可按“社會化媒體”、“搜尋引擎”、“郵箱”等網站類型對來源域名進行分類。 幫助使用者了解哪類推廣管道産生的流量多、效果好,進而合理優化網站推廣方案。
來路頁面:提供具體來路頁面引入流量的分布情況。 尤其對于通過流量置換、包廣告位等方式從其他網站引入流量的使用者,該功能可以友善、清晰地展現廣告引入的流量及效果,為優化推廣方案提供依據。
來源升降榜:提供開通統計後任意兩日的TOP10000搜尋詞、來路域名引入流量的對比情況,并按照變化的劇烈程度提供排行榜。 使用者可通過此功能快速找到哪些來路對網站流量的影響比較大,進而及時排查相應來路問題。
3)受訪分析
受訪域名:提供訪客對網站中各個域名的通路情況。 一般情況下,網站不同域名提供的産品、内容各有差異,通過此功能使用者可以了解不同内容的受歡迎程度以及網站營運成效。
受訪頁面:提供訪客對網站中各個頁面的通路情況。 站内入口頁面為訪客進入網站時浏覽的第一個頁面,如果入口頁面的跳出率較高則需要關注并優化;站内出口頁面為訪客通路網站的最後一個頁面,對于離開率較高的頁面需要關注并優化。
受訪升降榜:提供開通統計後任意兩日的TOP10000受訪頁面的浏覽情況對比,并按照變化的劇烈程度提供排行榜。 可通過此功能驗證經過改版的頁面是否有流量提升或哪些頁面有巨大流量波動,進而及時排查相應問題。
熱點圖:記錄訪客在頁面上的滑鼠點選行為,通過顔色區分不同區域的點選熱度;支援将一組頁面設定為”關注範圍”,并可按來路細分點選熱度。 通過訪客在頁面上的點選量統計,可以了解頁面設計是否合理、廣告位的安排能否擷取更多傭金等。
使用者視點:提供受訪頁面對頁面上連結的其他站内頁面的輸出流量,并通過輸出流量的高低繪制熱度圖,與熱點圖不同的是,所有記錄都是實際打開了下一頁面産生了浏覽次數(PV)的資料,而不僅僅是擁有滑鼠點選行為。
通路軌迹:提供觀察焦點頁面的上下遊頁面,了解訪客從哪些途徑進入頁面,又流向了哪裡。 通過上遊頁面清單比較出不同流量引入管道的效果;通過下遊頁面清單了解使用者的浏覽習慣,哪些頁面元素、内容更吸引訪客點選。
4)訪客分析
地區營運商:提供各地區訪客、各網絡營運商訪客的通路情況分布。 地方網站、下載下傳站等與地域性、網絡鍊路等結合較為緊密的網站,可以參考此功能資料,合理優化推廣營運方案。
終端詳情:提供網站訪客所使用的浏覽終端的配置情況。 參考此資料進行網頁設計、開發,可更好地提高網站相容性,以達到良好的使用者互動體驗。
新老訪客:當日訪客中,曆史上第一次通路該網站的訪客記為當日新訪客;曆史上已經通路過該網站的訪客記為老訪客。 新訪客與老訪客進入網站的途徑和浏覽行為往往存在差異。該功能可以輔助分析不同訪客的行為習慣,針對不同訪客優化網站,例如為制作新手導航提供資料支援等。
忠誠度:從訪客一天内回訪網站的次數(日通路頻度)與訪客上次通路網站的時間兩個角度,分析訪客對網站的通路粘性、忠誠度、吸引程度。 由于提升網站内容的更新頻率、增強使用者體驗與使用者價值可以有更高的忠誠度,是以該功能在網站内容更新及使用者體驗方面提供了重要參考。
活躍度:從訪客單次通路浏覽網站的時間與網頁數兩個角度,分析訪客在網站上的活躍程度。 由于提升網站内容的品質與數量可以獲得更高的活躍度,是以該功能是網站内容分析的關鍵名額之一。
5)轉化路徑分析
轉化定義
·訪客在您的網站完成了某項您期望的活動,記為一次轉化,如注冊或下載下傳。
目标示例
·獲得使用者目标:線上注冊、建立賬号等。
·咨詢目标:咨詢、留言、電話等。
·互動目标:視訊播放、加入購物車、分享等。
·收入目标:線上訂單、付款等。
轉化資料的應用
·在報告的自定義名額中勾選轉化名額,實時掌握網站的推廣及營運情況。
·結合“全部來源”、“轉化路徑”、“頁面上下遊”等報告分析通路漏鬥,提高轉化率。
·對“轉化目标”設定價值,預估轉化收益,衡量ROI。
路徑分析:根據設定的特定路線,監測某一流程的完成轉化情況,算出每步的轉換率和流失率資料,如注冊流程,購買流程等。
Hive分析電商名額:
第一步(篩選Session):
1.搜尋過某些關鍵詞的使用者
2.通路時間在某個時間段内的使用者
3.年齡在某個範圍内的使用者
4.職業在某個範圍内的使用者
5.所在某個城市的使用者
第二步:
1.統計出符合條件的session中,通路時長在1s3s、4s6s、7s9s、10s30s、30s60s、1m3m、3m10m、10m30m、30m以上各個範圍内的session占比;通路步長在13、46、79、1030、30~60、60以上各個範圍内的session占比
session通路時長,也就是說一個session對應的開始的action,到結束的action,之間的時間範圍;還有,就是通路步長,指的是,一個session執行期間内,依次點選過多少個頁面,比如說,一次session,維持了1分鐘,那麼通路時長就是1m,然後在這1分鐘内,點選了10個頁面,那麼session的通路步長,就是10.
2.擷取點選、下單和支付數量排名前10的品類
計算出所有這些session對各個品類的點選、下單和支付的次數,然後按照這三個屬性進行排序,擷取前10個品類。
3.擷取排名前十的商品品類中點選量最多的三個session。
點個贊8~