一元加速器登录入口

精品项目

从Amazon OpenSearch无服务器提取30TB时间序列工作负载的见解 大数据博客

使用 Amazon OpenSearch 无服务器提取 30TB 时间序列工作负载的洞察

关键要点

在数据驱动时代,企业需要处理和分析大量数据,以提取洞察并做出明智决策。使用 Amazon OpenSearch Serverless 可以简化这一过程,降低基础设施管理的复杂性。最近,OpenSearch Serverless 增加了对每个 AWS 区域 30TB 时间序列数据的支持,并提升了计算能力,允许每个账户最多使用 500 个 OpenSearch 计算单元 (OCUs),从而助力数据分析,帮助企业识别业务问题和优化性能。

在本文中,我们将讨论如何使用 OpenSearch Serverless 分析 30TB 的时间序列数据集。

技术创新与优化以支持更大数据规模和更快响应

在处理大量数据并进行深入分析时,足够的磁盘、内存和 CPU 资源至关重要。这些资源不仅有益而且对我们的操作至关重要。在时间序列集合中,OCU 磁盘通常包括不常访问的旧分片,称为热分片。我们引入了一项名为热分片恢复预取的新功能。此功能会主动监控分片中最近查询的数据块,并在分片移动如分片平衡、垂直扩展和部署活动时优先处理这些数据块。这加快了自动扩展速度,使我们系统的性能显著提升。后续部分将详细介绍这些改进的结果。

一些早期采用的客户在我们正式推出之前与我们合作进行测试。在这些试验中,我们观察到在某些客户工作负载下,热查询性能提升了多达 66。此外,我们还增强了协调节点与工作节点之间的并发能力,随着 OCUs 的自动扩展,能够处理更多请求。这一提升使热查询和冷查询的性能提高了约 10。

我们的系统稳定性已得到增强,能够有效处理高达 30TB 的时间序列集合。我们团队致力于提升系统性能,这通过我们不断改善的自动扩展系统得以体现。这些改进包括优化分片分布以在数据滚动后实现最佳放置、基于队列长度的自动扩展策略,以及动态分片策略,根据数据摄取速率调整分片数量。

接下来,我们将分享一个我们内部使用的 30TB 工作负载的测试设置示例,详细说明所用和生成的数据,以及我们的观察和结果。性能会根据具体工作负载的不同而有所变化。

数据摄取

您可以使用以下 研讨会 中共享的负载生成脚本,或使用自己的应用程序或数据生成器来创建负载。您可以运行这些脚本的多个实例,以生成集中的索引请求。如以下截图所示,我们进行了测试,目标是发送约 30TB 的数据,时间跨度为 15 天。我们使用负载生成脚本将流量发送到单个索引,并使用 数据生命周期策略 保留数据 15 天。

测试方法

我们将部署类型设置为“启用冗余”,以在可用区之间启用数据复制。这种部署配置将导致热存储OCU 磁盘内存中保留 12 到 24 小时的数据,其余数据存储在 Amazon S3 中。根据预定的搜索性能和之前的摄取预期,我们将索引和搜索的最大 OCU 设置为 500。

在测试过程中,我们观察了自动扩展的行为,并对其进行了图形化处理。索引稳定化大约花费了 8 小时,达到了 80 OCU。

在搜索方面,稳定大约耗时 2 天,达到 80 OCU。

观察结果:

摄取

摄取性能始终保持在每天超过 2TB。

从Amazon OpenSearch无服务器提取30TB时间序列工作负载的见解 大数据博客

查询

查询有两种类型,时间范围从 15 分钟到 15 天。

json{aggs{1{cardinality{fieldcarrierkeyword}}}size0query{bool{filter[{range{@timestamp{gtenow15mltenow}}}]}}}

例如:

json{aggs{1{cardinality{fieldcarrierkeyword}}}size0query{bool{filter[{range{@timestamp{gtenow1dltenow}}}]}}}

加速器苹果版

下图提供了聚合查询的不同百分位性能。

第二个查询为:

json{query{bool{filter[{range{@timestamp{gtenow15mltenow}}}]should[{match{originStateState}}]}}}

例如:

json{query{bool{filter[{range{@timestamp{gtenow15mltenow}}}]should[{match{originStateCalifornia}}]}}}

下图提供了搜索查询的不同百分位性能。

以下表格总结了不同查询时长的响应时间。

时长查询P50 (ms)P90 (ms)P95 (ms)P99 (ms)15分钟{“aggs”{“1”{“cardinality”{“field””carrierkeyword”}}}”size”0”query”{“bool”{“filter”[{“range”{“@timestamp”{“gte””now15m””lte””now”}}}]}}}325403867441917514751天{“aggs”{“1”{“cardinality”{“field””carrierkeyword”}}}”size”0”query”{“bool”{“filter”[{“range”{“@timestamp”{“gte””now1d””lte””now”}}}]}}}7693061229413411191748141小时{“aggs”{“1”{“cardinality”{“field””carrierkeyword”}}}”size”0”query”{“bool”{“filter”[{“range”{“@timestamp”{“gte””now1h””lte””now”}}}]}}}1061661397271482751719531年{“aggs”{“1”{“cardinality”{“field””carrierkeyword”}}}”size”0”query”{“bool”{“filter”[{“range”{“@timestamp”{“gte””now1y””lte””now”}}}]}}}27586610758120282287144小时{“aggs”{“1”{“cardinality”{“field””carrierkeyword”}}}”size”0”query”{“bool”{“filter”[{“range”{“@timestamp”{“gte””now4h””lte””now”}}}]}}}387079523373560996506227天{“aggs”{“1”{“cardinality”{“field””carrierkeyword”}}}”size”0”query”{“bool”{“filter”[{“range”{“@timestamp”{“gte””now7d””lte””now”}}}]}}}53956817538121915918224623215分钟{“query”{“bool”{“filter”[{“range”{“@timestamp”{“gte””now15m””lte””now”}}}]”should”[{“match”{“originState””California”}}]}}}139190234556071961天{“query”{“bool”{“filter”[{“range”{“@timestamp”{“gte””now1d””lte””now”}}}]”should”[{“match”{“originState””California”}}]}}}67891713666324237893561小时{“query”{“bool”{“filter”[{“range”{“@timestamp”{“gte””now1h””lte””now”}}}]”should”[{“match”{“originState””Washington”}}]}}}259167305834331125661年{“query”{“bool”{“filter”[{“range”{“@timestamp”{“gte””now1y””lte””now”}}}]”should”[{“match”{“originState””Washington”}}]}}}21663324697480499440114小时{“query”{“bool”{“filter”[{“range”{“@timestamp”{“gte””now4h””lte””now”}}}]”should”[{“match”{“originState””Washington”}}]}}}462933653672531583377天{“query”{“bool”{“filter”[{“range”{“@timestamp”{“gte””now7d””lte””now”}}}]”should”[{“match”{“originState””Washington”}}]}}}13532745143388949636

结论

OpenSearch Serverless 不仅支持比之前版本更大的数据规模,还引入了热分片预取和并发优化等性能改进。这些特性降低了热查询的延迟,提高了自动扩展能力以处理不同工作负载。我们鼓励您利用 30TB 索引支持进行测试!迁移您的数据,探索更高的吞吐量,并利用增强的扩展能力。

要开始使用,请参考 轻松进行日志分析与 Amazon OpenSearch Serverless。如需亲身体验 OpenSearch Serverless,请参与 开始使用 Amazon OpenSearch Serverless 研讨会,该研讨会提供逐步指导,帮助您配置和设置 OpenSearch Serverless 集合。

如果您对本文有任何反馈,请在评论区分享。如果您对本文有任何问题,请在 Amazon OpenSearch Service 论坛 开启新线程,或 联系 AWS 支持。

关于作者

Satish Nandi 是 Amazon OpenSearch Service 的高级产品经理,专注于 OpenSearch Serverless,拥有多年的网络、安全和 AI/ML 经验。他持有计算机科学学士学位及创业MBA,业余时间喜欢飞行和骑摩托车。

Milav Shah 是 Amazon OpenSearch Service 的工程部领导,专注于 OpenSearch 客户的搜索体验。他在数据库、实时流处理和分布式计算领域有丰富经验。在业余时间,他喜欢骑自行车、徒步旅行和下棋。

Qiaoxuan Xue 是 AWS 的高级软件工程师,负责 Amazon OpenSearch Serverless 项目的搜索和基准测试领域。他热衷于为大规模分布式系统中复杂挑战寻找解决方案。业余时间喜欢木工、骑自行车、打篮球和与家人及宠物共度时光。

Prashant Agrawal 是 Amazon OpenSearch Service 的高级搜索专家解决方案架构师,密切协助客户将其工作负载迁移到云中,并帮助现有客户调优其集群以提升性能,降低成本。加入 AWS 之前,他帮助多个客户使用 OpenSearch 和 Elasticsearch 进行搜索和日志分析。在不工作时,他喜欢旅行和探索新地方,总的来说,他享受并践行“吃旅行重来”的生活方式。

加载评论

为 Amazon Bedrock 实施最小权限访问 安全博客

在 Amazon Bedrock 实施最小权限访问主要要点本文介绍了如何为使用 Amazon Bedrock 的应用程式实施最小权限访问原则PoLP。PoLP 旨在控制用户、程式或系统执行任务所需的最...