Spark還是Flink?主流計算引擎如何選擇?
對于企業來說采用云原生架構已經成為一種趨勢和必要選擇,可以幫助企業更好地應對業務變化和市場挑戰,提高業務競爭力和創新能力;云原生架構可以為大數據在彈性、多租戶、敏捷開發、降本增效、安全合規、容災和資源調度等方向上帶來優勢。
在這個背景下,業界已經有很多云原生的大數據產品出現,幫助企業轉型云原生架構,同時很多企業內部對大數據引擎如何能更好的利用云原生的特性支撐好業務也有很多的實踐。本論壇特別邀請了來自Spark/Flink/Trino等領域內專家,分享這些引擎在云原生架構上面的一些實踐經驗。
點擊鏈接了解更多議題詳情,預約直播:
(資料圖片僅供參考)
出品人:一新 字節跳動 批式計算研發負責人
個人介紹:字節跳動批式計算負責人,支撐公司內大規模的離線數據處理&機器學習等業務場景,在 Spark/Ray/Primus/Iceberg 等方面做了大量的功能拓展&性能優化。
范文臣 Databricks 技術主管
個人介紹:范文臣,Databricks 開源組技術主管,Apache Spark PMC member,Spark社區最活躍的貢獻者之一。從2013年開始參與Spark的研發,2015年加入Databricks,目前主要負責Spark Core/SQL 的設計開發和開源社區管理。
演講題目:What"s new in Spark 3.4
演講提綱:本次演講介紹了 Apache Spark 最新版本 3.4 的新增功能和改進,包括 SQL, Python, Streamig 和 AI 集成等各個模塊。
聽眾收益:了解 Spark 最新版本。
程航 字節跳動 計算引擎開發工程師
個人介紹:現任字節跳動基礎架構工程師,主要負責 Spark 內核開發及字節自研 Cloud Shuffle Service 開發。
演講題目:字節跳動 Spark Shuffle 大規模云原生化演進實踐
演講提綱:在字節跳動內部,Spark 是應用最廣泛的計算引擎,每天任務數超過 150W,被廣泛應用于大規模數據處理,機器學習等場景。線上集群磁盤類型多樣,包括 SSD、HDD 以及混合等。每天會產生超過 100PB 以上的 Shuffle 數據,同時單個任務的 Shuffle 數據量可能達到數百 TB。巨量的 Shuffle 數據和復雜的計算資源環境給 Spark 運行過程中的 Shuffle 性能帶來了很多挑戰。本文會分享字節跳動在 Spark Shuffle 云原生化方面的大規模演進實踐。
在提供穩定資源的集群,主要以部署 SSD 磁盤為主,我們使用社區 External Shuffle Service (ESS) 作為主要的 Shuffle 方案,將 ESS 云原生化部署,并進行深度定制:
- 增加 Shuffle 限流功能,按任務等級給作業分配不同 Shuffle QPS,增強 ESS 的服務分級隔離能力。當 ESS 節點壓力過大時,會自動限流低優任務來保證高優任務的正常運行;
- 增加 Shuffle 溢寫分裂功能,當單個 Executor 產生的 Shuffle 數據達到閾值時,主動釋放該 Executor 并通知調度器在其他節點重新調度,防止打滿磁盤,同時避免對 ESS 產生壓力;
- 增強 ESS 的監控能力,并且優化 Spark UI,快速定位給 ESS fetch 壓力最大的作業并進行及時的報警。同時通過自研的智能調優系統給作業推薦最佳的參數來優化作業 Shuffle 性能;
混部場景比較多樣,包括在離線混部、與 HDFS 混部等,該場景下以部署 HDD 磁盤為主,磁盤性能差且容量不足,對 Shuffle 穩定性影響大。這種場景我們自研 Cloud Shuffle Service (CSS) 來解決上述問題:
- 該服務摒棄了 ESS 的實現思路而是采用了 push-based shuffle 思路。Shuffle write 階段就直接按照 partition 把數據寫入到遠端服務的 buffer 并最終 flush 到遠端服務的磁盤上。Shuffle read 階段直接讀取遠端服務磁盤上的連續文件,避免了大量的磁盤隨機 IO。
- CSS 也增加了 columnar shuffle 的支持,通過列式存儲 shuffle 數據,獲得更高的編碼和壓縮效率,極大減少 Shuffle 數據量
聽眾收益:
1. 介紹云原生環境下大規模 Shuffle 作業管理遇到的挑戰
2. 針對不同場景對超大規模 Shuffle 作業進行的優化與收益
3. Columnar Shuffle 等新功能的研發支持與上線帶來的收益
劉建剛 快手 技術專家
個人介紹:畢業于北航,先后任職于搜狗、百度,于2018年加入快手并推動Flink在快手的深度改造和生產可用。
演講題目:Flink on k8s 在快手的生產實踐
演講提綱:
1. Flink從yarn向k8s遷移的背景。
2. Flink on k8s的生產可用性改造,包含調度、metric、debug優化等。
3. Flink on k8s的大規模遷移實踐,如何幫助用戶無縫遷移。
4. Flink on k8s的未來規劃。
聽眾收益:
1. 了解云浪潮下的實時計算。
2. 業內少有的大規模上云經驗。
3. Flink on k8s的穩定性實戰。
張明磊 嗶哩嗶哩 OLAP 高級開發工程師
個人介紹:專注于超大規模分布式系統的研發與應用實踐, 之前阿里云數據庫OLAP團隊參與ADB產品的研發, 現在在嗶哩嗶哩從事交互式分析產品的研發。
演講題目:Trino在嗶哩嗶哩湖倉一體平臺中的實踐
演講提綱:探討 Trino 和 Iceberg 的結合,以及如何通過它們來優化湖倉一體中的大數據查詢。其次,會側重介紹 Trino 的穩定性保障,Trino 如何在保證高速查詢的同時,也確保了系統的穩定運行。最后,我們將探索 Trino 的容器化及其計劃。
聽眾收益:
1. Trino 如何結合 Iceberg 深度優化實現查詢加速
2: Trino 的穩定性保障
3. Trino 的容器化部署
點擊鏈接了解更多議題詳情,預約直播:
關鍵詞:
相關文章
精彩推送
截至8月3日,全球最大黃金ETF——SPDR Gold Trust的黃金持倉量為906.00噸,較前一交易日減3.18噸
截至8月3日,全球最大黃金ETF——SPDRGoldTrust的黃金持倉量為906 00噸
華嶸控股:公司目前正在推進的重大資產重組標的公司開拓光電的光纖傳感器產品已通過中廣核蘇州熱工院等單位的合格供應商審查,并已在多個大型安全智能監測工程項目中獲得應用
同花順金融研究中心8月4日訊,有投資者向華嶸控股提問,董秘您好!請介