Page 1 of 1

用户需要能够开发和测试查询

Posted: Tue Apr 22, 2025 8:57 am
by sakib40
我们意识到需要构建一个新的流式引擎——一个拥有 Flink 强大功能,但专为产品工程师和数据科学家设计,并可在现代云基础架构上运行的引擎。我们最初选择 SQL 作为 API,因为它易于使用、广为人知且具有声明性。为了提高速度和简化操作(无需 JVM 调优!),我们使用 Rust 构建了它。我们构建了一个对象存储原生状态后端,简化了运行有状态管道的挑战——每个管道都像一个古怪的 白俄罗斯电报号码数据 专用数据库。然后在 2023 年夏天,我们将其开源。如今,数十家公司正在运行 Arroyo 管道,用例包括数据提取、反欺诈、物联网可观测性和金融交易。

但我们始终明白,引擎只是拼图中的一块。为了使流式处理像批处理一样简单,逻辑、回填历史数据,并实现无服务器部署,而无需担心集群规模或持续运营。实现流式处理的民主化最终意味着构建一个完整的数据平台。当我们开始与 Cloudflare 洽谈时,我们意识到他们已经准备好了所有要素:R2 为静态状态和数据提供对象存储,Cloudflare Queues为传输中的数据提供存储,Workers 则能够安全高效地运行用户代码。Cloudflare 的独特之处在于,它允许我们将这些系统一路推向边缘,从而实现本地流处理的新范式,这将是未来数据主权和人工智能的关键。

这就是为什么我们非常高兴与 Cloudflare 团队一起将这一愿景变为现实。

大规模摄入
虽然 Pipelines 的转换和流式 SQL API 正在开发中,但它已经解决了数据旅程的两个关键部分:全局分布、高吞吐量提取和高效加载到对象存储。