Discuss Data

Posted: **Tue Apr 22, 2025 8:57 am**

我们意识到需要构建一个新的流式引擎——一个拥有 Flink 强大功能，但专为产品工程师和数据科学家设计，并可在现代云基础架构上运行的引擎。我们最初选择 SQL 作为 API，因为它易于使用、广为人知且具有声明性。为了提高速度和简化操作（无需 JVM 调优！），我们使用 Rust 构建了它。我们构建了一个对象存储原生状态后端，简化了运行有状态管道的挑战——每个管道都像一个古怪的白俄罗斯电报号码数据专用数据库。然后在 2023 年夏天，我们将其开源。如今，数十家公司正在运行 Arroyo 管道，用例包括数据提取、反欺诈、物联网可观测性和金融交易。

但我们始终明白，引擎只是拼图中的一块。为了使流式处理像批处理一样简单，逻辑、回填历史数据，并实现无服务器部署，而无需担心集群规模或持续运营。实现流式处理的民主化最终意味着构建一个完整的数据平台。当我们开始与 Cloudflare 洽谈时，我们意识到他们已经准备好了所有要素：R2 为静态状态和数据提供对象存储，Cloudflare Queues为传输中的数据提供存储，Workers 则能够安全高效地运行用户代码。Cloudflare 的独特之处在于，它允许我们将这些系统一路推向边缘，从而实现本地流处理的新范式，这将是未来数据主权和人工智能的关键。

这就是为什么我们非常高兴与 Cloudflare 团队一起将这一愿景变为现实。

大规模摄入
虽然 Pipelines 的转换和流式 SQL API 正在开发中，但它已经解决了数据旅程的两个关键部分：全局分布、高吞吐量提取和高效加载到对象存储。

Discuss Data

用户需要能够开发和测试查询

用户需要能够开发和测试查询