北京軟件開發公司Apache Flink實現的數據流體系結構,data Artisans應用程序工程總監Jamie Grier較近在OSCON 2016 Conference大會發言談到瞭使用Apache Flink構建的一種數據流體系結構。同時還談到瞭數據流應用程序的構建塊。
數據流體系結構可用於(yú)處理随著(zhe)時間流逝以事件流方式持續生成的數據,這一點不同於(yú)傳統的靜态數據集。相對於(yú)傳統的集中式“狀态化”數據庫和數據倉庫,數據流應用程序可以處理事件流以及針對曆史事件彙總而來的應用程序本地狀态。流式數據處理的一些優勢包括:
降低從(cóng)信号到決策的過程延遲(chí)
通過(guò)統一的方式處(chù)理實時和曆史數據
Time travel查詢(xún)
Apache Flink是一種開源的分布式流化和批量化數據處(chù)理平台。Flink的誕生受到瞭(le)Google Data Flow模型的啓發,可支持Java和Scala語言開發的Stream Processing API。相比其他流式數據處(chù)理框架,Flink中不存在微批量(Micro batching)數據,而是使用瞭(le)一種“一次一條消息”的流處(chù)理技術。
Jamie介紹瞭(le)狀态流處理並(bìng)展示瞭(le)Flink應用程序的代碼範例,以及使用開源時序數據庫和Graphana可視化工具Influxdb進行監控的方法。
同時他還介紹瞭(le)流處理過程中窗口(Windowing)的概念以及處理時間(Processing Time)和事件時間(Event Time)的窗口概念。處理時間的窗口會對流數據的分析産生影響,並(bìng)會導緻數據處理過程中出現某些錯誤。在事件時間方法中,窗口來自於數據,而非時鍾時間。對於事件時間,可通過數據嵌入的時間戳對數據進行處理,這樣即可獲得更精確的結果。
Jamie還介紹瞭(le)在應用程序中使用Flink時的錯誤處(chù)理和容錯機制。Flink中的Savepoints功能可在不丢失任何狀态的情況下對程序和Flink集群進行更新。如果要對實時數據進行流處(chù)理,此時Savepoints數據快照會顯得非常重要。
如果你想詳細瞭(le)解Apache Flink,可訪問他們的網站。此外Flink Forward 2016 Conference活動将於(yú)九月在柏林召開,提交提案的截止日期爲2016年6月30日。