開源大資料周刊-第60期

2021-11-08 23:51:25

<a href="https://www.iteblog.com/archives/2193.html">apache spark 2.2.0正式釋出</a>

<a href="http://tech.qq.com/a/20170710/020821.htm">《網絡安全法》實施一個月，大資料創業進入迷茫期</a>

網絡安全法正式實施前後，像一場寒流，席卷了整個大資料行業：資料接口公司可能會被直接關門，大資料營銷公司在法律上也出現了一些障礙。資料行業進入整肅期，而新的規則大家都沒頭緒，資料管理和資料交易方式都有待理順。

<a href="http://www.datayuan.cn/article/12332.htm">身處大資料行業必須要掌握25個大資料術語</a>

提到大資料可能有些令人生畏。在了解一定基本概念的基礎上，掌握其中一些關鍵術語也是至關重要的。本文介紹了25個基本的大資料術語，包括算法、分析、批量處理、記憶體計算、資料湖、spark、hadoop等。

<a href="https://mp.weixin.qq.com/s/botoxl-nkm2vcugkjnqaqq">spark streaming計算模型及監控</a>

spark streaming是一套優秀的實時計算架構。其良好的可擴充性、高吞吐量以及容錯機制能夠滿足我們很多的場景應用。本篇結合作者的應用場景，介結了在使用spark streaming方面的技術架構，并着重講解spark streaming兩種計算模型：無狀态和狀态計算模型以及該兩種模型的注意事項。接着介紹了spark streaming在監控方面所做的一些事情，最後總結了spark streaming的優缺點。

<a href="http://www.36dsj.com/archives/87684">攜程新風控資料平台建設</a>

本文主要從架構和業務的角度介紹下攜程資訊安全團隊的資料平台建設之路，以及如何為業務和風控提供支援的。從早期以rabbitmq和mysql為核心的1.0架構到2.0架構的演進過程中，引入了spark、storm、presto和kafka等元件，并從資料采集、計算和任務排程等幾個方面闡述了平台的痛點和解決方案。

<a href="https://mp.weixin.qq.com/s/kyym59srknjywla8macpea">微網誌廣告hubble系統：秒級大規模分布式智能監控平台架構實踐</a>

hubble平台定位為微網誌廣告智能全景監控、資料透視和商業洞察系統，hubble利用hdfs、kafka、spark等開源技術，提供了從機器、應用和業務等多個次元的監控到趨勢預測等智能化的功能，幫助廣告系統發現資料後面最本質的東西。本文介紹了hubble系統的設計原理及在智能全景監控實踐中的一些思考。

<a href="https://mp.weixin.qq.com/s/m6ixibcbcjg_ehl8uvm-wq">hdfs維護狀态</a>

更新作業系統以及應用安全更新檔或修補程式等系統維護操作是任何資料中心的正常操作。需要開展這種維護操作的hadoop存儲節點datanodes可能會脫機工作幾分鐘到幾個小時。按照hadoop之前的設計hdfs可以處理datanodes停止或下線。但是，同時在多個datanode上進行任何非協同維護操作可能會導緻臨時性的資料可用性問題。在hadoop新版中，将會引入一個hdfs維護狀态，旨在克服滾動更新和下線功能存在的缺點，可以避免資料塊的不必要複制，并使計劃性維護活動更加無縫地進行

雲hbase微信交流群請加：g418615

開源大資料周刊-第60期

繼續閱讀

【51CTO學院三周年】自學路上的伴侶

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark