天美传奇在线高清免费观看-天美麻花星空高清mv-天美麻花星空免费观看电视1-天美麻花星空免费观看电视乡村版

系列研究成果(十一):流批一體架構:助力構建全面感知的DNS安全預警體系

2025年11月28日15:24
字體:[ ]

一、前言

在全球數字化和人工智能化的浪潮下,作為我國互聯網“中樞神經系統”的國家頂級域名DNS系統,已經成為最重要的互聯網基礎服務。常見針對DNS的攻擊手段有:DDOS(分布式拒絕服務)攻擊、緩存投毒、DNS劫持、DNS隧道攻擊。近年來,隨著人工智能、移動互聯網、物聯網等高速發展,攻擊者開展漏洞自動化發現以及生成式混淆攻擊等新型攻擊手段,這些手段具有長周期、低頻、特征弱化的顯著特點,使得傳統基于已知特征檢測的方式日趨捉襟見肘。

DNS全流量采集技術,是指通過在DNS系統關鍵節點部署采集設備,如流量鏡像等,實現對網絡中全量原始流量包的采集。該技術能夠實時捕獲網絡鏈路中的所有數據流量,包括 TCP、UDP等各種協議類型的數據包,確保數據的完整性和全面性。DNS全流量采集的數據為后續的DNS流量分析與檢測提供最原始的數據,有助于發現那些隱藏在海量原始數據中的潛在威脅。

持續的實時及回溯分析需求與海量的原始流量數據流動,給數據實時聚合計算帶來了巨大的挑戰。本文以當下流行的“流批一體”架構為例,簡要剖析如何從根本上解決數據鏈路的實時流通問題,為構建全面感知的DNS安全預警體系提供流批一體化數據解決方案。

二、大數據處理的新范式:流式計算逐漸成為主流

傳統的批處理模式通常是定時進行抽取、轉換和加載數據,通常每小時甚至每天才執行1次,僅能分析昨天(T+1)甚至前天(T+2)的數據。這種模式在海量原始數據實時分析場景下越來越難以為繼。與批處理相比,流式計算可以近乎實時地進行數據處理,從而快速響應外部事件。流式計算架構可以水平擴展,能夠應對海量數據量和快速的數據增長速率,具有較高的靈活性和可擴展性。

下圖展示了一個典型的流批一體處理架構:

實時采集DNS流量數據,并通過Kafka將數據以消息的方式傳送給Flink。使用 Flink 完成數倉 ODS 到 DWD 、DWS 和ADS層的計算,通過使用 StarRocks 對各層數倉做統一的 OLAP 查詢和在線分析。基于 Kafka的消息訂閱與消費,Flink 實現全鏈路的流式計算,加上StarRocks多層物化視圖的聚合,數據從采集到分析的時延可被縮短到秒級,為安全監測與快速預警提供數據基礎。

三、Flink窗口操作

窗口操作是流式計算中的一個關鍵技術概念,它將無界的數據流分割為有限的塊進行處理。窗口可以是時間窗口或計數窗口,時間窗口是基于時間長度的窗口,而計數窗口則是基于記錄數量的窗口。窗口操作允許用戶按照特定的粒度對數據進行聚合處理,如計算過去5分鐘內的平均值、最大值或最小值。Flink支持高度靈活的窗口操作。

四、StarRocks物化視圖與增量聚合

物化視圖主要用于支持多表關聯和豐富的聚合操作。StarRocks 的異步物化視圖采用了主流的基于 SPJG(select-project-join-group-by)模式透明查詢改寫算法。在不修改查詢語句的前提下,StarRocks 可以自動將在基表上的查詢改寫為在物化視圖上的查詢。通過其中包含的預計算結果,物化視圖可以顯著降低計算成本,并大幅加速查詢執行。同時,當基表的數據發生變化時,物化視圖也會進行相應的更新(自動或者手動),以保證數據的一致性和準確性。

StarRocks 的異步物化視圖自動查詢改寫功能具有以下特點:

強數據一致性:如果基表是 StarRocks 內表,StarRocks 可以保證通過物化視圖查詢改寫獲得的結果與直接查詢基表的結果一致。

基于 External Catalog 構建物化視圖:可以通過該特性加速數據湖中的查詢。

多表 Join:StarRocks 的異步物化視圖支持各種類型的 Join,包括一些復雜的 Join 場景,如 View Delta Join 和 Join 派生改寫,可用于加速涉及大寬表的查詢場景。

Union 改寫:可以將 Union 改寫特性與物化視圖分區的生存時間相結合,實現冷熱數據的分離,允許從物化視圖查詢熱數據,從基表查詢歷史數據。

五、結論

流批一體處理架構利用流式處理保證數據的時效性,并通過Flink、StarRocks等內置的增量聚合能力,在數據寫入時就完成預處理與聚合計算。通過“計算與聚合前移”,將大數據量分析時的復雜清洗與計算過程,分布到數據鏈路的各個節點上,從而優化提升計算性能,顯著降低計算成本,為整個架構提供了實時性和靈活性。隨著互聯網等高速發展,國家頂級域名DNS系統面臨著海量數據訪問與分析的挑戰,通過引入流批一體增量聚合計算技術,可以為保障國家頂級域名DNS系統安全提供數據賦能。

作者簡介:

黃永厚,中國互聯網絡信息中心工程師,主要研究方向為數據庫技術、數據管理與分析。

王騰,中國互聯網絡信息中心工程師,主要研究方向為智能運維技術。

李帥良,中國互聯網絡信息中心工程師,主要研究方向為大數據分析。

王蒙,中國互聯網絡信息中心工程師,主要研究方向為數據庫技術、數據管理與分析。


分享: 【返回頂部】 【打印本頁】