圆形木模板如何帮助企业利用历史和实时数据管道

圆形木模板如何帮助企业利用历史和实时数据管道,第1张

圆形木模板:Estuary如何帮助企业利用历史和实时数据管道

考虑到数据在推动各种业务决策中的作用,数据可能是当今世界上最有价值的资源。然而,将来自SaaS应用程序和其他来源的数据结合起来以获得洞察力是一项重大任务,在实时、低延迟的数据流中更是如此。

位于纽约的河口正试图通过“数据操作平台”来解决这一问题,该平台结合了“批处理”和“流式”数据处理管道的优势。

河口联合创始人兼首席执行官大卫·亚夫(David Yaffe)告诉VentureBeat:“寒武纪大爆发发生在数据库和其他数据工具中,这些工具对企业非常有价值,但很难使用。”“我们帮助客户将他们当前系统中的数据提取到这些基于云的系统中,而不需要以对每个人都优化的方式维护基础架构。”

为了推进这一目标,河口今天宣布,它已经在由FirstMark Capital牵头的种子轮融资中筹集了700万美元。许多天使投资者参与其中,包括Datadog的首席执行官奥利维尔·波梅尔(Olivier Pomel)和蟑螂实验室的首席执行官斯潘塞·金博尔(Michael Kimball)。

竞争状况

批量数据处理,对于外行来说,描述的是固定时间间隔批量整合数据的概念,可以用来处理上周的销售数据,准备部门报表。另一方面,流数据处理是数据的实时利用。例如,如果公司希望在销售发生时了解更多关于销售的信息,或者如果客户支持团队需要关于客户的所有最新数据(包括他们的购买和网站互动),这将特别有用。

尽管批量数据处理领域在利用最少的工程支持从SaaS系统中提取数据方面取得了很大的进步,但实时数据却不是这样。“使用低延迟操作系统的工程师仍然必须管理和维护巨大的基础设施负担,”Yaffe说。“在河口,我们为数据集成带来了两个世界的最佳:批处理系统的简单性和数据保留以及流媒体的[低]延迟。”

当然,以上所有功能都已经可以利用现有技术实现。如果一家公司想要低延迟数据捕获,他们可以使用Plusar或Kafka等开源工具来建立和管理自己的基础设施。或者他们可以使用现有的供应商主导的工具,如Fivetran最近收购的HVR,尽管这主要侧重于从数据库中捕获实时数据,对SaaS应用程序的支持有限。

然而,河口提供完全托管的ELT(提取、加载、转换)服务。该公司表示,它“结合了毫秒级延迟和点击简单性”,并在低延迟用例中引入了类似于Airbyte的开源连接器。

“我们正在创造一个新的范例,”Yaffe说。“到目前为止,还没有一款产品可以从SaaS应用中实时提取数据——在大多数情况下,这是一个新概念。本质上,我们正在向市场推出毫秒级延迟版本的Airbyte,它适用于SaaS、数据库、发布/订阅和文件存储。”

最近,整个数据集成领域的活动呈爆炸式增长。Dbt Labs已经筹集了1.5亿美元来帮助分析师转换仓库中的数据,Airbyte已经完成了一轮2600万美元的融资。在其他地方,GitLab推出了一个名为Meltano的开源数据集成平台。河口肯定与这些参与者一致,但它的目标是通过专注于批处理和流数据处理并在过程中覆盖更多用例来使自己与众不同。

“这是一个如此不同的焦点,我们不认为我们与他们有竞争力,但一些相同的用例可以由任何系统完成,”Yaffe说。

故事到此为止

Yaffe之前是Arbor的联合创始人兼首席执行官,Arbor是一家专注于数据的营销技术公司,他在2016年将该公司出售给了LiveRamp。Arbor创建了Gazette,这是其托管业务服务流的主干,目前处于测试阶段。

根据Yaffe的说法,企业可以使用Gazette“作为Kafka的替代方案”,自2018年以来,Gazette已经完全开源。Gazette构建了一个实时数据湖,将数据作为常规文件存储在云中,并允许用户与其他工具进行通信。它本身可能是一个有用的解决方案,但是将其作为整个ELT工具集的一部分需要大量的工程资源,这就是Flow发挥作用的地方。使用company flow来整合他们生成、处理和使用数据所需的所有系统,并统一“批处理和流范式”,以确保公司当前和未来的系统“围绕同一数据集同步”。

Flow是源代码可用的,这意味着它提供了许多与开源相关的自由,但其商业源代码许可证(BSL)阻止了开发者从源代码中创建竞争产品。最重要的是,河口授权了一个完全管理版本的Flow。

“与许多公司目前所做的相比,Gazette是一个很好的解决方案,但它仍然需要有才华的工程团队来构建和运行移动和处理数据的应用程序——我们仍然认为与更简单的解决方案相比,这是一个太大的挑战。Yaffe解释道:“批处理空室中工具的人体工程学。“Flow采用了Gazette启用的流媒体概念,并使其像Fivetran一样简单地捕捉数据。企业使用它来获得这一优势,而无需管理基础设施或成为构建和运营流程处理管道的专家。”

虽然河口没有公布其定价,但Yaffe表示,它是按照每个月Flow捕获和处理的输入数据量来收费的。就现有客户而言,Yaffe不能随意透露具体的名字,但他确实说过,典型的客户从事营销技术或广告技术,企业也用它将数据从本地数据库迁移到云端。

欢迎分享,转载请注明来源:聚客百科

原文地址: https://juke.outofmemory.cn/life/173741.html

()
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-28
下一篇 2022-05-28

发表评论

登录后才能评论

评论列表(0条)

保存