看完了吳軍博士的《矽谷之謎》之後，室友肖老闆立即向我推薦了吳軍博士的另外一本書，也就是這本《智能時代》，當然他也買了，于是乎我就拿來看了。資訊時代餘波未盡，智能時代又來了，機器人跟人類搶飯碗，社會需要的人則會越來越少，很多人都會被淘汰。借用吳軍博士的話，任何一次技術革命，最初受益者都是發展它、使用它的人，而遠離它、拒絕接受它的人，在很長的時間裡都将是迷茫的一代。在智能革命即将到來之際，作為普通人和企業都應該擁抱它，讓自己成為2%的受益者，而我們IT從業人員更需要在這樣的環境裡學會生存，因為這是最好的時代也是最壞的時代！

一、關于此書

　　看完了《矽谷之謎》之後，室友肖老闆立即向我推薦了這本《智能時代》，當然他也買了，于是乎我就拿來看了。作者仍然是無所不通的吳軍博士，Google早期員工之一，原騰訊副總裁，目前Google中日韓文搜尋算法的主要設計者矽谷大咖，是一個還不錯的攝影愛好者，一個古典音樂迷，喜歡享受高品質的影視。平時偶爾會修理園子，甚至做點木匠活，每年還會旅遊很多次。

　　羅輯思維的羅胖曾經這樣評價吳軍博士：“吳軍博士是一個時間管理方面做到極緻，同時又充滿生活樂趣的人”。記得柴靜在《看見》一書中說道，她的老師陳氓說道：“成功的人不會幸福，因為他隻能專注一個事，你不能分心，你必須全力以赴工作，不要謀求幸福”，而吳軍博士恰恰正是為了打陳氓老師的臉的（哈哈），而這種狀态其實也是我所追求的。

　　說來慚愧，我的研究所學生專業是計算機，研究方向是雲計算，照理說應該對大資料有所研究。但是，研一就被老師派到校外去做.NET應用開發了（哈哈，感覺一下就low了好多），也就有了我現在在部落格園的活躍，啊哈哈。雖然自己在研究所學生階段學習了一些Hadoop的技術，也有了一些感性認識，但畢竟不完整。如果你對下面幾個問題感興趣，那就一起閱讀一下這本書吧：

在南卡羅來納州的多切斯特縣，警察是怎麼通過智能電表抓住一個在自家種大麻的人？　　

亞馬遜為什麼會把男性護膚品和古典音樂一同推薦？

塔吉特連鎖百貨店是如何提前于家長知道正在上高中的女兒已經懷孕的？

　　如果你想知道上面這些問題的答案，那麼就去讀一讀這本《智能時代》吧。好了，書托這個國際慣例就到此結束啦。

二、精華筆記

0.推薦序

“用不确定的眼光看待世界，再用資訊來消除這種不确定性”，是大資料解決智能問題的本質。
世界的不确定性來自兩個方面，一是影響世界的變量太多以至于無法用數學模型來描述；二是來自客觀世界本身:不确定性是我們所在宇宙的特性。
機器智能革命的發生來自大資料量的積累達到質變的奇點。→從這個角度看，機器學習同人類學習并沒有什麼本質的不同

1.資料-人類建造文明的基石

　　① 資料最大的作用在于承載資訊，但并非所有的資料都承載了有意義的資訊。資料本身是人造物，是以他可以被随意制造，甚至可以被僞造。

　　② 對資料和資訊進行處理後，人類就可以獲得知識。知識比資訊更高一個層次，也更加抽象，它具有系統性的特征。

eg.測量星球的相對位置和對應的時間，就得到了資料；通過這些資料得到星球運動的軌迹，就是資訊；通過資訊總結出開普勒三定律，就是知識。

　　③ 相關性是使用資料的鑰匙。很多時候，我們無法直接擷取資訊，但是我們可以将相關聯的資訊量化，然後通過數學模型，間接地得到所要的資訊。

eg.Google利用各地使用者搜尋和流感有關的關鍵詞的趨勢變化，預測疫情的傳播情況

　　④ 資料驅動方法:隻要資料量足夠，就可以用若幹個簡單的模型取代一個複雜的模型。因為它是先有大量的資料，而不是預設的模型，然後用很多簡單的模型去契合資料。雖然這種資料驅動方法在資料量不足時找到的一組模型可能和真實的模型存在一定的偏差，但是在誤差允許的範圍内，單從結果上看和精确的模型是等效的。它是大資料的基礎，也是智能革命的核心，更重要的是，它帶來一種新的思維方式。

　　⑤ 在今天的IT領域，越來越多的問題可以采用資料驅動方法來解決。具體講，就是當我們對一個問題暫時不能用簡單而準确的方法解決時，我們可以根據以往的曆史資料，構造很多近似的模型來逼真真實情況，這實際上是用計算量和資料量來換取研究時間。它的最大優勢在于，可以在最大程度上得益于計算機技術的進步。

2.大資料和機器智能

　　① 圖靈測試:讓一台機器和一個人坐在幕後，讓一個裁判同時與幕後的人和機器進行交流，如果這個裁判無法判斷自己交流的對象是人還是機器，就說明這台機器和人有了同等的智能。

　　② 人工智能這個名詞嚴格地講在今天有兩個定義：

　　第一個是泛指機器智能，也就是任何可以讓計算機通過圖靈測試的方法，包括資料驅動方法；

　　第二個是狹義上的概念，即20世紀五六十年代特定的研究機器智能的方法（首先了解人類如何産生智能，然後讓計算機按照人的思路去做）。

　　③ 全世界各個領域資料不斷向外擴充，漸漸形成了另外一個特點，那就是很多資料開始出現交叉，各個緯度的資料從點和線漸漸連成了網，或者說，資料之間的關鍵性增強，在這樣的背景下，就出現了大資料。

　　④ 大資料的特征 : 體量大、多元度、全面性。

Q：為什麼使用Big Data而不是Large Data ?

A：Big與Large等近義詞的差别在于，Big更強調的是相對小的大，是抽象意義上的大，而Large和Vast等常用于形容體量的大小。使用Big更重要的是它傳遞了一種資訊—大資料是一種思維方式的改變。

　　⑤ 我們對大資料重要性的認識不應該停留在統計、改進産品和銷售，或者提供決策的支援上，而應該看到它（和摩爾定律、數學模型一起）導緻了機器智能的産生。而機器一旦産生和人類類似的智能，就将對人類社會産生重大的影響。

3.思維的革命（吳軍博士開始講曆史了）

　　① 托勒密方法論的核心思想：首先，需要一個簡單的元模型，這個模型可能是假設出來的，然後用這個元模型建構複雜的模型；其次，整個模型要和曆史資料相吻合。（動态規劃管理學的理論方法和托勒密方法論一緻）

　　缺陷: 一是整體模型很複雜；二是确定性假設，模型一旦産生，就是确定的和不會改變的。

　　② 笛卡爾的科學方法論：大膽假設，小心求證。

　　③ 牛頓的機械思維：一是世界變化的規律是确定的；二是因為有确定性做保障，是以規律不僅是可以被認識的，而且可以用簡單的公式或者語言描述清楚；三是這些規律應該是放之四海而皆準的，可以應用到各種未知的領域指導實踐。→工業革命就是機械思維的結果

　　④ 世界的不确定性來自兩個方面：一是當我們對這個世界的方方面面了解的越來越細緻後，會發現影響世界的變量其實非常多，已經無法通過簡單的辦法或者公式算出結果，是以我們甯願采用一些針對随機事件的方法來處理他們，人為的把他們歸位不确定的一類。二是不确定性的第二個因素來自客觀世界本身，它是宇宙的一個特性。

　　⑤ 資訊量與不确定性有關：假如我們要搞清楚一件非常不确定的事，或是我們一無所知的事情，就需要了解大量的資訊。相反，如果我們對某件事已經有了較多的了解，那麼就不需要太多的資訊就能把他搞清楚。是以從這個角度看，可以認為，資訊量的度量就等于不确定性的多少，這樣香農就把熵和資訊聯系起來了。→香農真是碉堡了！

重點：用不确定性這種眼光看待世界，再用資訊消除不确定性，不僅能夠賺錢，而且能把很多智能性的問題轉化成資訊處理問題，具體說，就是利用資訊消除不确定性的問題。

　　⑥ 香農老人家的傑作：第一定律（将原始信源符号轉化為新的碼符号，使碼符号盡量服從等概分布，進而每個碼符号所攜帶的資訊量達到最大，進而可以用盡量少的碼符号傳輸信源資訊。）和第二定律（資訊的傳播速率不能超過信道的容量）。

　　最大熵原理：當我們要對未知的事件尋找一個機率模型時，這個模型應當滿足我們所有已經看到的資料，但是對未知的情況不要做任何主觀假設。

　　⑦ 現代通信手段的本質：就是以相對低廉的成本獲得人脈，而媒體行業的不斷進步，本質上是不斷地在為企業拓寬對外連接配接的寬帶，使得它們做生意越來越友善。

　　⑧ 大資料的科學基礎是資訊論，而它的本質就是利用資訊消除不确定性。

　　⑨ 大資料時代的思維方法：從大量資料中直接找到答案，即使不知道原因。這一方面給了我們一個找捷徑的方法，同時我們不會因為缺乏勇氣而被難倒；另一方面我們是否能接受這種不知道原因的答案。

4.大資料與商業

　　① 大資料在商業活動中從細節到整體再從整體到細節的雙向流動，使得我們不僅能夠利用大資料對商業進行整體提升，更能夠精确到每一個細節。

　　② 一項技術帶動整個社會變革的事情，通常遵循一個模式：

　　新技術+原有産業=新産業
（新技術: 從蒸汽機、電、摩爾定律到大資料、機器智能）

　　③ 在大資料時代，IT軟體和服務業依然會是IT領域最好的行業，而且這個趨勢更加明顯。提供服務雖然不像銷售産品一次能掙到比較多的錢，但是細水長流的技術服務最終會給這些服務的提供者帶來更長久的生意、更多的利潤。未來産品的服務水準不完全取決于廠商對它的重視程度（如服務态度）和相關技術，而更多依靠智能化。未來，商家将在資料層面和智能化方面展開競争。

　　④ 在今天的大資料和機器智能時代，雖然每一個公司都得益于資料的使用以及機器智能帶來的好處，但這并不意味着每家公司都要聘請資料科學家或者機器智能方面的專家。更切合實際的是，他們付費使用第三方的服務。在未來我們可以看到，大資料和機器智能的工具就如同水和電這樣的資源，由專門的公司提供給全社會使用。

5.大資料和智能革命的技術挑戰

　　① 大資料時代，在收集資料時常常沒有預先設定的目标，而是先把所有能夠收集的資料收集起來，經過分析後，能夠得到什麼結論就是什麼結論。這樣就避免了采樣之苦，因為大資料常常以全集作為樣本集。

　　② 大資料并行計算的難題：一是任何一個問題總有一部分計算是無法并行的，這類計算占比越大，并行處理的效率越低；另一個影響并行計算效率的因素在于無法保證每個小任務的計算量是相同的。

　　③ 解決大資料實時處理的問題，就要從根本上改變系統的設計和算法。

　　④ 機器智能的關鍵—資料挖掘。一是對資料過濾和整理；二是進行機器學習，機器學習是一個不斷疊代、不斷進步的過程，即“期望值最大化”—隻要事先設定一個學習的目标，這些算法就會不斷地優化模型，讓它越來越接近現實情況。→ETL+ML

　　⑤ 資料安全技術面臨問題：一是保證使用者資料不損壞、不丢失；二是保證資料不會被偷走或者盜用。

　　解決的方法：一是從檔案設計和作業系統設計上加以改進；二是利用大資料本身的特點，來保護大資料的資訊安全（如固定資料操作流程）。

　　⑥ 大資料時代保護隐私的技術：一是從收集資訊的一開始就對資料進行一些預處理，預處理後的資料保留了原來的特性，使得資料專家能夠處理資料，但卻讀不懂資料的内容；二是雙向監視，讓侵犯隐私的人必須以自己的隐私來做交換。→我個人比較期待第二種雙向監視的方式！

6.未來智能化産業

　　① 未來的農業：在引入機器智能後，農業将以嶄新的形态出現（以色列利用高科技改善農業灌溉）。

　　② 未來的體育：利用大資料指導訓練，分析和總結優秀運動員的動作與技術，糾正其他運動員的動作（NBA金州勇士隊利用大資料建隊）。

　　③ 未來的制造業：機器智能滲透到産品制造和銷售的各個環節時，整個制造業将重新洗牌，未來的競争要靠從設計到銷售全過程的智能化水準。

　　④ 未來的醫療：降低醫療成本、解決醫療資源短缺、制造業革命、預防衰老及延長壽命

　　⑤ 未來的律師業：自然語言處理軟體處理法律檔案，提高律師工作效率，降低訴訟成本。

　　⑥ 未來的記者和編輯：計算機能提高新聞行業的效率，同時會讓記者和編輯的工作種類萎縮。

7.智能革命和未來社會（擁抱革命，争當2%的受益人）

　　① 智能社會展現在方方面面，但概括起來，就是讓我們的生活變得更加友善，同時社會資源的使用率極大提高。要做到這一點，重要的是讓整個社會精細化。

　　② 精細化社會：利用區塊鍊（Block Chain）追蹤每一次交易（比特币、追蹤商品從生産到銷售、流通的每一個環節），從标準化到個性化的服務（用藥）

　　③ 大資料、移動網際網路（萬物聯網技術）和機器智能三者疊加到一起後，我們不再有隐私可言；同時大資料會帶來一個威脅，它在無形中會制造出一個老大哥。→ Big Brother is watching you!

　　④ 在智能時代，不是每個人都要去機器智能的研發制造企業或者去資料公司找工作，而是大家要接受一個新的思維方式，利用好大資料和機器智能，加入到智能革命的浪潮中，成為那2%的受益者。

三、這是最好的時代，也是最壞的時代

　　閱讀《智能時代》最大的感受莫不在于書中引用的狄更斯的《雙城記》第一句：“這是最好的時代，也是最壞的時代”。回望曆史，人類所經曆過的三次重要革命：19世紀末始于英國的工業革命、20世紀末始于美國和德國的第二次工業革命以及二戰後以摩爾定律為标準的資訊革命，每一次的革命都對當時的社會産生了巨大的沖擊，他們或多或少都經曆了大約半個多世紀甚至更長的時間才能被消化掉。

　　我們至今仍然處在資訊時代的高峰年代，我們見證了蘋果公司的喬布斯、微軟帝國的比爾蓋茨、戴爾公司的邁克爾戴爾、Google公司的拉裡佩奇和謝爾蓋布林等人，他們在自己年富力強時幸運地趕上了資訊革命的大潮，站在了浪潮之巅。我們也見證了BAT在中國的巨無霸模式發展，也見證了在中國應用“新技術+原有産業=新産業”的諸多實踐案例，它們讓我們的生活變得更加友善，不禁感歎：自己處在了最好最友善的時代，有了資訊，有了網際網路，我們也就有了一切。

　　資訊時代還沒結束，以大資料和機器智能為趨勢的智能革命又已經來臨，吳軍博士說：“大資料和機器智能的趨勢一旦形成，就不是人力可以阻擋的”。我們也看到雖然特斯拉的馬斯克和微軟的蓋茨嘴上說不要，身體卻很誠實（都花了重金投入到機器智能領域的研發）。但是，智能革命所要替代的是我們人類最自豪的部分—大腦！！！在過去，機器替代的隻是人的手，而智能革命的結果是讓計算機替代人去思考，或者說靠計算能夠得到比人類思考更好的結果，能過更好地解決各種智能問題。這時，或許我們會在某天醒來突然發現，好像已經沒有什麼地方需要我們去做了。當全社會各行各業的從業人數都因為機器智能而減少時，全世界幾十億勞動力怎麼辦？我們又不禁感歎：自己處在了最壞的時代，有了計算機，有了機器智能，再也不需要人類工作了，我們又拿什麼養活自己和家人？

　　此外，大資料和機器智能的發展也導緻了目前我們處在一個無隐私的社會，正如吳軍博士所說 “在今天和未來，當大資料、移動網際網路（萬物聯網技術）和機器智能三者疊加到一起後，我們不再有隐私可言”。因為隐私被洩露，我們或許常常會在淘寶購物時受到假貨，機票總是比别人貴10%，可能沒有醫院會接收我們住院，更可惡的是各大保險公司有權利拒絕一位未來可能得重病的投保者（各大保險實際上掌握着投保人過去多年的身體狀況資訊，再加上對資料的分析和挖掘）。回頭想想，我們随時随地地在享受網際網路資訊時代帶來的友善的同時也在無時無刻地主動的隐私洩密，從可穿戴式裝置到帶有GPS的相機，再到與Wi-Fi相連的各種智能電子産品，不自覺地就記錄下了我們詳細的行蹤和生活資訊，并且提供了服務商。究其源頭，還是我們自己在不設防的情況下把資訊洩露出去的。

　　書中提到，在曆次技術革命中，一個人、一家企業，甚至一個國家，可以選擇的道路隻有兩條：要麼進入前2%的行列，要麼被淘汰。抱怨是沒有用的。是以，回到這句話“這是最好的時代，也是最壞的時代”，資訊時代餘波未盡，智能時代又來了，機器人跟人類搶飯碗，社會需要的人則會越來越少，很多人都會被淘汰。借用吳軍博士的話，任何一次技術革命，最初受益者都是發展它、使用它的人，而遠離它、拒絕接受它的人，在很長的時間裡都将是迷茫的一代。在智能革命即将到來之際，作為普通人和企業都應該擁抱它，讓自己成為2%的受益者，而我們IT從業人員更需要在這樣的環境裡學會生存，因為這是最好的時代，也是最壞的時代！

長長的分隔線後，順便打個廣告，我司招聘大資料開發工程師啦，坐标成都天府軟體園，希望有大資料工作經驗的你的加入！有興趣就給個履歷吧，[email protected]

　　宏利金融全球服務中心IS招聘

　　進階大資料開發工程師

職位誘惑：

外資金融,六險一金,帶薪假期,彈性時間

職位描述：

Job Summary工作内容:

與Product Owner和項目經理進行需求和項目讨論，提供技術和業務的解決方案

根據實際業務需求，負責公司大資料平台及應用系統的架構設計與開發，技術改進與性能優化

指導和教育訓練開發人員，解決系統開發、運作中出現的各種問題，同時保證傳遞品質

建立大資料智能分析工作的流程、規範和方法

參與和幫助團隊的靈活實施和持續改善

積極學習和掌握保險相關的業務和系統知識

完成主管安排的其他工作

Job Requirements (Knowledge/Skills/Competencies) 任職資格:

計算機相關專業大學及以上學曆，4年以上工作經驗，其中包含2年或以上的大資料開發實施經驗

精通Java語言，熟悉常見應用架構（如Spring、MyBatis等）和設計模式

熟悉Linux環境，能夠熟練使用至少一種腳本語言（如Shell、Python等）

熟悉Hadoop/Yarn/Hbase/Hive//Flume/Spark/Kafka等常用大資料元件

熟悉MS SQL Server/Oracle/MySQL/Redis/MongoDB等常見存儲和緩存系統

熟悉 Git 等代碼版本控制技術

較強的分析和解決問題能力，對攻關疑難問題具有濃厚興趣

良好的團隊合作精神、溝通能力和學習能力

有大資料平台建設經驗者優先錄用

有金融行業背景經驗更佳

有Web開發經驗更佳

工作位址

成都 - 高新區 - 天府軟體園C11-6樓

作者：周旭龍

出處：http://edisonchou.cnblogs.com

本文版權歸作者和部落格園共有，歡迎轉載，但未經作者同意必須保留此段聲明，且在文章頁面明顯位置給出原文連結。

《智能時代》讀書筆記：這是最好的時代，也是最壞的時代

一、關于此書

二、精華筆記

0.推薦序

1.資料-人類建造文明的基石

2.大資料和機器智能

3.思維的革命（吳軍博士開始講曆史了）

重點：用不确定性這種眼光看待世界，再用資訊消除不确定性，不僅能夠賺錢，而且能把很多智能性的問題轉化成資訊處理問題，具體說，就是利用資訊消除不确定性的問題。

4.大資料與商業

新技術+原有産業=新産業

5.大資料和智能革命的技術挑戰

6.未來智能化産業

7.智能革命和未來社會（擁抱革命，争當2%的受益人）

三、這是最好的時代，也是最壞的時代

職位描述：

工作位址

繼續閱讀

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

HDFS指令行工具

【51CTO學院三周年】自學路上的伴侶

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark