天天看點

大資料與機器學習 2016年中盤點

本文将分以下幾個部分進行盤點。

一、裡程碑事件

二、開源項目(國際篇)

三、業界動态(國際篇)

四、開源項目(國内篇)

五、業界動态(國内篇)

六、下半年展望

七、周報集錦

裡程碑事件

hadoop 10歲了!

hadoop誕生10年了。2006年1月28日,doug cutting和mike cafarella從他們的開源網絡爬蟲項目(apache nutch)中分離出分布式檔案系統以及mapreduce設施,把它當作一個子項目,并稱其為hadoop。doug cutting發表了 apache hadoop at 10 ,他動情地回顧了自己與hadoop故事,并提出了對未來的展望。

開源項目(國際篇)

facebook

4月為facebook messager釋出了基于bot的開發者平台:聊天機器人的目标是最終取代應用。使用者不再需要在自己的裝置上安裝各種應用,而是使用messenger來和各種的聊天機器人互動,進而完成各種任務,目前這些任務都是通過觸屏界面由各種應用完成的。聊天機器人主要是依賴語音資訊以及人工智能來完成指令

5月第一次正式介紹了 fblearner flow ,這是一個可以為全公司員工管理機器學習模型的機器學習軟體。換句話說,這是一個可以自己制造人工智能的人工智能,你可以了解為傳說中的人工智能母體

6月

開源 深度學習架構 torchnet ,相比其他巨頭自己搭建的深度學習架構,torchnet 更加開放,也将大幅推進深度學習的應用普及

釋出 文本了解引擎deeptext ,facebook表示,deeptext能夠以“接近人類的精确度”,了解人們的聊天内容。另外,依托背景的計算能力,這一工具每分鐘能夠分析、識别數千條網友評論或是聊天内容。在語種方面,這一工具已經能夠分析20多種語言

linkedin

3月 開源資料挖掘軟體wherehows :從商業角度講,wherehows的目标是從分布式的多種中繼資料中進行挖掘

4月開源 hadoop 和spark的性能監控和調優工具——dr. elephant :linkedin宣布開源dr. elephant,dr. elephant能夠很好地幫助使用者了解、分析和優化hadoop和spark的工作流。linkedin在去年第八屆hadoop summit上第一次在社群呈現。

開源 分布式對象存儲系統 ambry ,ambry是一個是不可變對象的存儲系統,非常易于擴充,它能夠存儲kb到gb大小的不可變對象,并且能夠實作高吞吐和低延遲,該系統支援跨資料中心的雙活部署,并且存儲成本低廉。它特别适于存儲各種媒體内容

開源 機器學習庫photon :photon機器學習支援apache spark,通過結合spark快速處理海量資料的能力和強大的模型訓練和診斷工具,photon機器學習提供給研究型工程師更多的資訊來決策使用哪類推薦系統算法

amazon

5月 開源 深度學習架構dsstne :亞馬遜對于這套軟體的性能很有信心,聲稱在亞馬遜的雲計算平台上,dsstne 比谷歌等競争對手的計算速度快了 2.1 倍

google

2月釋出 tensorflow serving開源項目 ——更快的将深度學習模型産品商業化:google軟體工程師noah fiedel在博文中介紹,“tensorflow serving是一個高性能、開源的機器學習服務系統,為生産環境及優化tensorflow而設計。它更适合運作多個大規模模型,并支援模型生命周期管理、多種算法實驗及有效地利用gpu資源。tensorflow serving能夠讓訓練好的模型更快、更易于投入生産環境使用

3月釋出 雲端機器學習和tensor flow的alpha測試版本 :google釋出了alpha版本的tensorflow(tf)內建雲端機器學習服務,為回應不斷增長的大規模在google雲端平台(gcp)運作tensor flow庫的需要

5月開源 全球最精準自然語言解析器syntaxnet :google已經釋出了開源的syntaxnet自然語言神經網絡架構,以幫助機器更好地了解自然語言。syntaxnet中包括了parsey mcparseface,後者是一種專門用于“解剖”英語的語言解析器。google稱之為世界上最準确的語言解析器,并且已經放出了允許人們借助自有資料來訓練syntaxnet的全部代碼

twitter

5月

正式開源heron :去年,twitter對外宣布了新的分布式流計算系統heron,随後消息稱twitter已經用heron替換了storm。據文中介紹,heron支撐twitter的所有實時分析業務已經有兩年多了。它替代了之前使用的apache storm系統。heron有很多架構方面的改進,而且向後相容storm生态系統

開源分布式高性能 日志複制服務distributedlog :dl是一個高性能的日志複制服務,提供了持久化、複制以及強一緻性的功能,這對于建構可靠的分布式系統都是至關重要的,如複制狀态機(replicated-state-machines)、通用的釋出/訂閱系統、分布式資料庫以及分布式隊列

其他開源

apache beam将統一大資料平台的開發 :一直以來,大資料開發涉及到各種架構,比如,hadoop、storm、spark和flink等,基于這些架構的開發要求的技術棧都各不同,這對開發者來說開發成本比較高,在beam的統一下可以實作寫一個程式既能在hadoop中運作又可在spark中運作

apache apex成為apache頂級項目 :apache apex是基于hadoop的流處理和批處理引擎,目前成為apache頂級項目

microsoft開源其深度學習工具包cntk :cntk是一個統一的深度學習工具包,它通過一個有向圖将神經網絡描述為一系列計算步驟。在有向圖中,葉節點表示輸入值或網絡參數,邊表示輸入之上的矩陣運算。cntk使得實作群組合前饋型神經網絡dnn、卷積神經網絡(cnn)和循環神經網絡(rnns/lstms)變得非常容易。實作了支援跨多個gpu和伺服器自動分化和并行化的随機梯度下降(sgd)學習

雅虎開源可以提升流操作速度的datasketches :就像在venture beat上所宣布的那樣,雅虎開源了datasketches,這是一個用java編寫的随機流算法庫。datasketches允許進行通常來說開銷很大的操作,像計算變量不同的值在流中出現的次數,而且消耗的時間少,占用的記憶體小,誤差可預測

雅虎開源caffeonspark:基于hadoop/spark的分布式深度學習 :雅虎認為,深度學習應該與現有的支援特征工程和傳統(非深度)機器學習的資料處理管道在同一個叢集中,建立caffeonspark意在使得深度學習訓練和測試能被嵌入到spark應用程式

openai釋出開源人工智能研究工具集openai gym :該工具集用于開發和對比強化學習(rl)算法,這是現代機器學習研究的基礎

deepdetect——機器學習架構的api統一 :deepdetect是一個專為深度學習的開源api和服務。它的api簡單直覺、易用、通用和易擴充

聯合國平行語料1.0版釋出 :聯合國平行語料1.0版釋出,包括阿英西法俄中六種語言,總共15個語言對,語料包含了1990-2014年的資料,規模都在1500萬個句對以上

業界動态(國際篇)

人工智能再顯身手,谷歌alphago戰勝李世石 :google旗下deepmind出品的alphago連勝三局(五局三勝制)戰勝南韓職業棋手圍棋九段李世石。這将是人工智能領域的又一裡程碑事件

微軟大手筆收購linkedin讓谷歌壓力山大,這個搜尋巨頭将選擇如何應對? :收購linkedin後,微軟相當于為自己的軟體推銷政策找到了一個能夠加快“變現”的強大助力——一個容納了超過400萬使用者的社會資料集

ebay大資料新動作:收購瑞典大資料公司 :為了更好地組織産品資料以及使平台上産品更容易找到,ebay公司收購了一家專注人工智能,機器學習和大資料分析的瑞典公司

亞馬遜aws推出人工智能服務:與微軟谷歌競争 :亞馬遜舉行釋出會宣布,旗下雲服務amazon web services(以下簡稱“aws”)增加人工智能服務,可以讓開發者在應用中增加預測和分析功能

谷歌在歐洲建立新的人工智能團隊,專注機器學習 :谷歌在一篇博文裡宣布,他們在歐洲建立了一個的新的人工智能研究團隊,專注機器學習(ml)。歐洲的 google research (一個團隊),以位于瑞士蘇黎世的谷歌辦公室為基地,這裡也是美國以外谷歌最大的工程辦公室的故鄉

microsoft 2016年build大會:納德拉将賭注押在人工智能上 :在此次大會上,納德拉的主題演講以cortana和人工智能為中心展開。他介紹了微軟的bot架構(microsoft bot framework)和新的認知服務(cognitive services)等最新進展

facebook 帝國:手握十年路線圖,ai及vr将成兩大支柱 :規劃展示了工程 + 研究的取向,可以預計facebook會通過一些工程類的落地項目,不斷積累資料、資金和使用者,催生人工智能和虛拟現實産品,并最終改變人機互動形式

google i/o 2016——人工智能真正的起點 :這次釋出會可以說是有史以來内容分布最廣的一屆,覆寫了人工智能、物聯網、車載系統、搜尋、廣告、軟體、移動系統和虛拟現實等多個熱門的方向和領域

twitter收購magic pony technology,利用神經網絡優化圖檔和視訊 :twitter 在強化機器學習技術方面又邁出了重要一步,他們收購了magic pony technology公司,幫助其在各管道app上更好地提供圖檔和視訊内容服務

salesforce 收購人工智能創業公司 metamind :metamind 的通用平台能預測語言、視覺和資料庫任務的結果

谷歌搜尋內建rankbrain算法優化網頁排名 :據搜尋引擎研究網站search engine land報道,近日搜尋引擎巨頭google為自家搜尋服務深度內建了新型算法rankbrain。rankbrain算法是google基于機器學習人工智能技術開發出來的最新算法,真正解決“看起來比較複雜、陌生或有歧義的語句搜尋”,專門用來優化搜尋引擎的網頁排名

現在google制造自己的晶片,intel要發瘋 :google的目标始終未變:空前的高效。為了讓ai技術躍上一個新高度,他們需要一種能在更低能耗前提下,用更短時間完成更多任務的晶片。但這個晶片所産生的效果已經超越了google帝國本身,甚至讓intel和nviaia這樣的商業化晶片制造商的未來受到威脅,尤其是考慮到google對于未來的願景

英偉達20億美元豪賭人工智能 :20億美元是什麼概念?英偉達去年全年的營業收入也才50億美元出頭,是以英偉達用了幾乎一半的全年收入投入到這一款晶片的研發中,這背後的原因是,英偉達看中了人工智能領域未來的發展

aws釋出關系型資料庫遷移服務 :這個按需使用的雲服務支援實時的遷移場景,借助無模式的轉換工具,在遷移過程中,使用者可以使用該服務切換資料庫平台

資料分析初創企業thoughtspot獲5000萬美元c輪融資 :thoughtspot是一家商業智能軟體提供商,總部位于加州paloalto,由準備上市的雲計算公司nutanix的聯合創始人ajeet singh成立于2012年。thoughtspot号稱是全球第一款關系型搜尋引擎

新加坡大資料公司lynx analytics拿到1000萬美元投資,但是他們早就盈利了 :lynx analytics目前主要為企業提供大資料分析,運用圖論理論将各種資訊來源彙聚一起并施加分析,進而幫助企業精準刻畫出其消費者畫像,進而幫助企業推出客戶所喜愛的産品并進行針對性地營銷

谷歌新研究項目magenta:利用人工智能創作藝術 :magenta用來探索利用人工智能來創作藝術,同時為開源人工智能平台tensorflow的使用者簡化這一過程

網站和移動應用資料分析公司amplitude完成1500萬美元b輪融資 :amplitude是一家網站和移動應用資料分析公司,旨在幫助客戶更好地驅動使用者留存、活躍和轉化

谷歌人工智能系統tensorflow開始支援ios :繼2015年11月9日google釋出人工智能(ai)系統平台tensorflow并宣布開源後,近日谷歌再次針對ios系統平台釋出了特别版tensorflow。據稱,特别版tensorflow将首先登陸iphone,屆時iphone将可以運作更為複雜的應用

記憶體資料庫memsql獲3600萬美元c輪融資 :memsql是一種分布式記憶體資料庫,可提供對大資料的實時分析功能,能同時支援 sql 與 json 非結構化資料,像apache

spark,、kafka一樣,memsql也支援大資料的實時分析。不過不同的是盡管memsql提供有免費版本的資料庫,但它本身是不開源的

綜合

hadoop summit 2016:2016年4月,都柏林的liffey河畔,hadoop summit 2016在convention會展中心盛大開幕。大會主要議程曆時2天,有100多場演講,與會者超過1400人。主要内容包括apache committer洞察、資料科學、營運管理、開發技術、資料商務、物聯網、hadoop未來幾大系列。我們為您做了一些梳理,參見: hadoop summit 2016歐洲峰會開幕keynote回顧 , hadoop summit 2016會場回顧(二) , hadoop summit 2016會場回顧(三) , hadoop summit 2016會場回顧(最終篇)

spark summit 2016:spark峰會是spark領域内規模最大、最具影響力的工業會議。2016年的spark峰會上,衆多業界大咖為我們帶來了spark 2.0、機器學習、人工智能等方面的精彩演講。參見: 《spark舊金山峰會側記》

google, facebook, amazon, apple的人工智能之争——收購ai開發團隊 :在過去的三年内,已經有超過六成的人工智能開發公司陸續獲得了贊助。就僅僅在 2016年,已經出現了4次重要的大型公司競購

我們盤點了yc 投資的15個人工智能項目,發現了這3個特點 :2016 年 yc 開始砸向人工智能了,我們盤點了 yc 投資的 15 個人工智能企業,并試圖從中發現産業的趨勢

開源項目(國内篇)

國内方面,目前在大資料和機器學習方面的開源較少,潛力巨大。比較令人振奮的大事是,去年阿裡巴巴正式加入apache基金會,并将jstorm項目捐贈給後者。 apache storm 2.0将基于jstorm 。jstorm是中國第一個進入apache核心産品的開源項目,對于中國的開源發展來說意義重大。

百度開源其人工智能系統:warp-ctc :該系統是一種在cpu和gpu上快速的ctc的并行實作。這項舉動舉動對于促進機器學習、人工智能領域的技術研究與發展與有重要意義

華為carbondata成為 apache incubator(孵化器)項目》 :carbondata的目标是建立一種新的hadoop檔案格式,隻用一份資料,滿足多樣化的資料查詢需求,包括順序讀,olap查詢,随機讀

業界動态(國内篇)

巨頭搶灘無人駕駛 “按捺不住”的百度将在美國測試無人車 :百度首席科學家吳恩達接受采訪時稱,百度很快就将在美國測試無人駕駛汽車,希望能在2018年前推出無人駕駛商用車型

京東成立jdx事業部 包含無人機及倉儲機器人項目 :京東jdx事業部囊括京東全自動物流中心、京東無人機、京東倉儲機器人及京東自動駕駛車輛送貨等一系列智能物流項目,對行業前沿、高端的智能裝置、智慧系統進行研究與創新

滴滴機器學習研究院更新為滴滴研究院 何曉飛任院長 :目前,滴滴研究院的研究方向包括:機器學習、計算機視覺、人工智能、資料挖掘、最優化理論、分布式計算等

科大訊飛4.96億元收購樂知行,推動大資料與人工智能結合 :公開資料顯示,北京樂知行軟體有限公司成立于 2011年,是一家為中國小教育提供教育資訊化整體解決方案的提供商。該公司利用雲計算、大資料和移動聯網技術,建立包括了數字校園、教育雲平台、網際網路教育和教育物聯網在内的四大産品體系

華誼嘉信1.48 億美元收購smaato,打造“大資料+大内容”營銷體系 :屆時,公司将借助其多年來在移動廣告領域的經驗與優勢,以及smaato擁有的實時競價技術和全球投放資料資源,全面推動華誼嘉信大資料營銷與數字營銷戰略,打出“大資料+大内容”組合拳

達觀資料獲真格領投1000萬天使投資,專注企業大資料服務 :達觀資料創立于2015年, 是一家專注于大資料技術的高科技公司,為企業提供最專業的資料采集和深度挖掘、使用者畫像、智能推薦、搜尋等saas服務,幫助企業實作基于大資料的營銷,降低企業成本提高企業效益

中國廠商星環科技被gartner列為國際主流hadoop發行版廠商 :國際著名咨詢機構gartner釋出了hadoop發行版市場指南《market guide for hadoop distribution》1。星環科技入選為六家hadoop發行版軟體代表廠商之一

京東金融投資大資料公司數庫 :數庫是一家金融産業大資料服務公司,緻力于解剖非結構化或半結構化大資料,為個人金融投資、企業決策、産業更新提供了全面和精準化的服務

“神策資料”獲400萬美元a輪,由紅杉領投 :神策資料面向中小企業提供私人定制方案,幫助企業做使用者行為的深度分析

第三方雲推送平台“極光推送”完成千萬美金c輪融資 :成立于2011年的“極光推送”是一家移動大資料服務平台,主要利用大資料、雲計算技術為使用者提供移動消息推送服務,是一家第三方平台

下半年展望

大資料

最值得期待的莫過于hadoop 3.0和spark 2.0正式版的釋出。

參見: hadoop 3.0新特性預覽 和 spark 2.0 預覽:更簡單,更快,更智能 。

人工智能

随着國内外科技巨頭在人工智能“軍備競賽”的日趨白熱化,我們有理由相信,下半年會有更多令人振奮的項目/産品面世,敬請期待。

====================================分割線================================

本文轉自d1net(轉載)