大數據和雲計算技術周報(第93期)

  • 2019 年 10 月 6 日
  • 筆記

導語

「大數據」 三個字其實是個marketing語言,從技術角度看,包含範圍很廣,計算、存儲、網路都涉及,知識點廣、學習難度高。 本期會給大家奉獻上精彩的:kylin、Kerberos、Griffin、Hbase、AI、SVD、實時計算、MongoDB。全是乾貨,希望大家喜歡!!! #大數據和雲計算技術社區#希望通過堅持定期分享能幫助同學在大數據學習道路上盡一份微博之力。相信長期堅持認真閱讀周報的同學,在技術的道路上一定會日益精進!感謝編輯們的長期堅持!也請同學們繼續打賞,支援社區,支援編輯們持續奉獻高品質知識! #大數據和雲計算技術社區#長期招募有興趣參與社區編輯和運營的同學,歡迎掃描文末二維碼聯繫(參與社區工作,收穫知識和進步,還有紅包哦)。 特別提醒,文末有驚喜! 以下是正文,限於眾編輯水平有限,不保證大家都喜歡。(如果鏈接不能點開 請用二維碼 謝謝)

1實時計算

有贊是一個商家服務公司,提供全行業全場景的電商解決方案。在有贊,大量的業務場景依賴對實時數據的處理,作為一類基礎技術組件,服務著有贊內部幾十個業務產品,幾百個實時計算任務,其中包括交易數據大屏,商品實時統計分析,日誌平台,調用鏈,風控等多個業務場景,本文將介紹有贊實時計算當前的發展歷程和當前的實時計算技術架構。。

https://mp.weixin.qq.com/s/ZkVK9S-BSoQTo09ALBI9aA

2kylin

kylin通過sdk支援數據源快速接入

https://mp.weixin.qq.com/s/oRyTZNJQxAcZ3VwLeqxiVA

3Kerberos

本篇文章主要講解了principal與keytab之間的關係,並詳細講解了Kerberos如何認證用戶,並使用HDFS、Mapreduce、HBase、Hive、Spark服務。

https://mp.weixin.qq.com/s/JAmfKY9nZfxUwysJGIcERQ

4Griffin

Apache Griffin 是開源的大數據數據品質解決方案,支援批處理和流模式,其是基於 Apache Hadoop 和 Apache Spark 構建,由 eBay 開發,並於 2016年12月07日進入 Apache 孵化。Griffin 提供了一個可以處理不同的任務,如定義數據品質模型,執行數據品質測量,自動化數據分析和驗證,以及跨多個數據系統的統一數據品質可視化的全面的框架,旨在解決大數據應用中數據品質領域的挑戰。

https://www.iteblog.com/archives/2492.html

5MongoDB

本文講述了MongoDB的異常值模型的使用示例,對於一些欄位可以存在值激增情況,異常值模型可謂是優選解決方案

使用模式構建:異常值模式(The Outlier Pattern)

6AI

如何利用機器學習將海量的影片內容充分利用起來,成為 AI 領域研究人員和企業開發應用的重要課題。本文,我們將分享愛奇藝資深科學家王濤在 AICon 上的精彩演講,介紹愛奇藝在大規模影片分析理解方面的實踐探索。

https://mp.weixin.qq.com/s/jqICZ2nkv-1vF_XPCWRxiQ

7TensorFlow

這篇文章介紹TensorFlow一些最基礎的知識,淺顯易懂,一文了解TF.。

https://mp.weixin.qq.com/s/gi-18SIn5_Rc7c5eFJpMnA

8奇異值分解

奇異值分解(SVD)在降維,數據壓縮,推薦系統等有廣泛的應用,任何矩陣都可以進行奇異值分解,本文通過正交變換不改變基向量間的夾角循序漸進的推導SVD演算法,以及用協方差含義去理解行降維和列降維,最後介紹了SVD的數據壓縮原理 。

https://mp.weixin.qq.com/s/ESl7TxxfuYzjscyfJWLisw

9Kubernetes

本文主要介紹微博平台落地 Kubernetes 過程中的一些經驗教訓

https://mp.weixin.qq.com/s/sT_kG2VcPQzrhyYJFS9fEA

10HBase

HBase 是一個分散式,可擴展,面向列的適合存儲海量數據的資料庫,其最主要的功能是解決海量數據下的實時隨機讀寫的問題。 通常 HBase 依賴 HDFS 做為底層分散式文件系統,本文以此做前提並展開,詳細介紹 HBase 的架構,讀路徑以及優化實踐。

https://mp.weixin.qq.com/s/cj-HJNfZ2O7kCAFNL4l7Eg

11開心一刻

某公眾號最近幾天的文章,推薦你們好好看看:

《面向對象的優越性:從C到C++》 《JAVA比C++好的7大理由》 《數據時代:python才是主角》 《Golang:放棄python的九大理由》 《Julia:數據分析最好用的語言》 《高性能計算的勝者:C/C++》

致謝:

周蓬勃、王在道、孫亞飛、馮藝帆、陳少軍、鄧開表、張少華、薛述強、劉彬、劉超、廖程鵬、董言、呂西金、朱潔、藍隨、黃文輝、郭飛