StarRocks 3.3 重磅发布,Lakehouse 架构发展进入快车道!
作为下一代 Lakehouse 架构的代表,StarRocks 3.3 在稳定性、计算性能、缓存设计、物化视图、存储优化和 Lakehouse 生态系统等方面进行了全方位的优化和创新。
如何打造一款极速数据湖分析引擎
为了进一步满足用户对于数据湖分析的要求,我们需要一套适用于数据湖的分析引擎,能够在更短的时间内从更多来源利用更多数据,并使用户能够以不同方式协同处理和分析数据,从而做出更好、更快的决策。本篇文章将向读者详细揭秘这样一套数据湖分析引擎的关键技术,并通过 StarRocks 来帮助用户进一步理解系统的架构。
技术内幕 | StarRocks Community Champion、阿里云技术专家解读 Optimizer 实现
内容提要: Cascades/Orca 论文涉及的 Top-Down 优化思路与分析。 针对 CMU15-721 的一些 PPT、观点、结论加以解析。 着重结合 StarRocks 的实现,并介绍 StarRocks 的 Optimizer 主要借鉴的 CMU noisepage(https://github.com/cmu-db/noisepage)项目以及 Cascades/Orca 论文的思路。
StarRocks 技术内幕 | Join 查询优化
本文整理自作者在 StarRocks 线下 MeetUp 的分享,主要介绍 StarRocks 在 Join 查询规划上的经验和探索。文章主要分为四个部分:Join 背景,Join 逻辑优化,Join Reorder,分布式 Join 规划。
StarRocks 技术内幕|OLAP 查询性能优化 10 问
OLAP 查询性能优化 10 问
StarRocks 技术内幕:查询原理浅析
本文将详细解释在 StarRocks 中如何完成一条查询 SQL 的处理。 首先来了解 StarRocks 中的基本概念: FE: 负责查询解析,查询优化,查询调度和元数据管理 BE:负责查询执行和数据存储
StarRocks 技术内幕 | 多表物化视图的设计与实现
本文先介绍物化视图的一些需求分析,看看现在的物化视图哪些地方做得好、哪些地方做得不好,然后再针对这些需求进行设计。然后再讲一下具体的实现原理,最后再讲一下 StarRocks 2.5 版本的物化视图还会开发哪些功能。
StarRocks 技术内幕 | 基于全局字典的极速字符串查询
本文主要针对 StarRocks 基于全局字典做的低基数 String 查询优化,揭秘其技术内幕。
技术内幕|StarRocks 标量函数与聚合函数
本文将以标量函数和聚合函数为例,介绍 StarRocks 常见的两种函数实现原理,希望读者能够借鉴其设计思路,并按需实现所需的函数。同时,我们也欢迎社区小伙伴一起贡献力量,共同完善 StarRocks 的功能,具体的函数任务认领方式请见文末。
技术内幕 | StarRocks Pipeline 执行框架(下)
关于 Pipeline 执行引擎的实现, BE 端拆分 Pipeline 的逻辑,以及 Pipeline 实例 PipelineDriver 的调度执行逻辑,将在本篇中继续与大家分享。
技术内幕 | StarRocks Pipeline 执行框架(上)
欢迎来到 StarRocks 技术内幕系列文章,我们将为你全方位揭晓 StarRocks 背后的技术原理和实践细节,助你从 0 开始快速上手这款明星开源数据库产品。本期 StarRocks 技术内幕将主要介绍 StarRocks Pipeline 执行框架的基本概念、原理及代码逻辑。
StarRocks 技术内幕:向量化编程精髓
本文是对我在 StarRocks 线下 MeetUp 演讲的整理,主要分为三部分:第一部分简要介绍向量化的基础知识,第二部分讲解数据库如何进行向量化,最后是 StarRocks 向量化实践后的一些粗浅思考。
StarRocks技术内幕 | 资源隔离原理解析
如何在保证资源隔离的前提下提高资源的利用率,是资源隔离的关键点和挑战:如果没有资源隔离,那么集群会具有良好的资源利用率,但是会完全没有隔离性;而如果完全进行物理隔离,会具有良好的隔离性,但是弹性会明显不足。 所以我们选择在用户态来实现调度策略,进行逻辑上的隔离。
StarRocks 技术内幕:实时更新与极速查询如何兼得
本文就将介绍 StarRocks 2.x 版本中实现的 Primary Key 模型的技术内幕,包括实时数据更新机制,以及针对实时更新数据的极速查询的实现原理。
StarRocks 算子落盘:让大查询又快又稳
目前,StarRocks 支持聚合算子、排序算子、HASH JOIN(LEFT JOIN、RIGHT JOIN、FULL JOIN、OUTER JOIN、SEMI JOIN 以及 INNER JOIN)算子的中间结果落盘。 通过落盘,查询使用的内存可以被放大十倍,从而可以支持更多大查询以及 ETL 的应用场景。
兼顾降本与增效,我们对存算分离的设计与思考
“降本增效”是最近企业常被提及的关键字,作为新时代企业发展的数据大脑,企业大数据团队需要持续探索如何在有限资源下创造更多价值。本文将以场景为"引",技术为"核",介绍如何基于 StarRocks 全新的存算分离架构实现数据分析的“降本”和“增效”。
技术内幕 | StarRocks 支持 Apache Hudi 原理解析
本文围绕以 Hudi 为中心的数据湖生态,详细介绍 StarRocks 是如何实现快速分析 Hudi 数据湖格式,并给出完整的使用案例。
StarRocks 物化视图:指标平台性能提升的新引擎
更快更好地帮助用户实现统一目标、统一口径和统一数据!
技术内幕|StarRocks 支持 Apache Hudi 原理解析
StarRocks Connector 框架用于统一外部数据源的接入分析,并且基于 Connector 框架实现对 Hudi、Iceberg、Delta Lake 等主流数据湖表格式的接入。本文围绕以 Hudi 为中心的数据湖生态,详细介绍 StarRocks 是如何实现快速分析 Hudi 数据湖格式,并给出完整的使用案例。
技术内幕|阿里云强力贡献:如何让 StarRocks 做到极速数据湖分析
本文将重点介绍 StarRocks 极速数据湖分析能力背后的技术内幕,性能表现以及未来的规划。