Spark3.0分佈,Structured Streaming UI登場
近日,在Spark開源十周年之際,Spark3.0發佈了,這個版本大家也是期盼已久。登錄Spark官網,最新的版本已經是3.0。而且不出意外,對於Structured Streaming進行了再一次的加強,這樣Spark和Flink在實時計算領域的競爭,恐怕會愈演愈烈。
Spark 3.0 主要的新特性如下:
- 相比於Spark2.4,性能提升了2倍,主要體現在自適應查詢執行,動態分區修剪等方面。
- Pandas API改動,包括Python類型的提示和UDF函數。
- 對於PySpark的異常處理進行了增強。
- 新的Structured Streaming UI頁面。
- 而且解決了大量Jira問題。
Structured Streaming最初於Spark 2.0引入,並且停止了SparkStreaming的更新,很明顯Structured Streaming的出現是為了在實時計算領域可以與對水印,窗口等支持更好的Flink一戰。
3.0版本添加Structured Streaming的專用UI,可以方便的查看流作業的執行信息。
雖然與Flink比起來,Structured Streaming還有很長的路要走,但是可以期待Spark 3.0版本對於Structured Streaming的持續加強。
更多實時數據分析相關博文與科技資訊,歡迎關注 「實時流式計算」