镜舟数据库3.0 数据分析新范式
基于 StarRocks 发展起来的企业级商用数据库,满足金融、物流、汽车、能源、医疗等政企客户对技术支持、解决方案、生态建设、售后保障等方面的极致要求。
产品下载
产品核心优势
极速
统一
极速数据处理
面向不同规模的数据,提供多样且灵活的导入方式,数据接入延迟可以从小时级缩减到秒级。
极速分析体验
MPP 执行框架、全面向量化执行引擎、基于代价的优化器(CBO)为用户提供了极速的任意维度 OLAP 分析和 ad-hoc 查询。
实时业务洞察
实时可更新的列式存储引擎保证数据秒级更新可见,为用户提供最实时的业务洞察。
统一数据模型
卓越的单表和多表查询性能,在大宽表、星型模型、雪花模型中均可实现极速分析。
统一分析场景
深耕场景优化,在实时、离线、高并发、ad-hoc 等多种分析场景下均能提供卓越性能。
统一湖仓架构
对接多种数据生态,支持联邦查询,可作为数据湖引擎的加速器,提供统一查询服务。
产品功能
极速全场景分析引擎,实时查询返回
MPP 执行框架
镜舟数据库采用 MPP(Massively Parallel Processing)分布式执行框架。MPP 执行框架能够使得单个查询请求可以充分利用所有执行节点的资源,从而使单个查询的性能可以随集群的水平扩展而不断提升。
全面向量化执行引擎
镜舟数据库通过实现全面向量化执行引擎充分发挥了 CPU 的处理能力。其中,数据存储、内存中数据的组织方式,以及 SQL 算子的计算方式,均为列式实现。并且镜舟数据库通过向量化算法充分利用了 CPU 提供的 SIMD 指令。通过全面向量化引擎,镜舟数据库将查询性能整体提升了 3—10倍。
基于代价的优化器(CBO)
镜舟数据库自研的 CBO 针对自有的全面向量化执行引擎进行了深度定制和创新,使镜舟数据库能比同类产品更好地支持多表关联查询,特别是复杂的多表关联查询,让全面向量化引擎能够发挥极致的性能。
流批一体,实时数据更新
多种导入方式
镜舟数据库能够支持秒级的导入延迟,提供准实时的服务能力。Apache Kafka、Apache Flink、HDFS 等数据源均可平滑导入。并且,镜舟数据库能够保证导入数据的原子性生效,并发进行的各个事务相互之间互不影响,对外提供快照隔离(Snapshot Isolation)级别的事务隔离。
实时数据更新
镜舟数据库支持对数据进行实时、频繁更新,并且支持对部分列的更新操作。通过主键模型,用户可以在不牺牲查询性能的前提下,对数据执行高效地 UPSERT 类操作。目前已经广泛应用于订单状态更新、TP 数据库同步、多流 join 写入宽表等场景。
实时数据计算
镜舟数据库的聚合表和智能物化视图可以在数据导入时实时完成数据更新计算,无需额外维护。在查询时,镜舟数据库能够自动将查询改写至适当的物化视图来加速查询,无需额外声明。用户可以按需创建和删除物化视图,灵活满足业务需求。
丰富的大数据生态,湖仓一体
数据湖分析
镜舟数据库可以作为数据湖的实时查询引擎。镜舟数据库通过灵活的元数据缓存及同步机制,充分利用向量化引擎的优势,在 Apache Hive、Apache Iceberg、Apache Hudi 外表上提供极速、实时的数据湖分析体验。
联邦查询
镜舟数据库的 Connector 框架能够支持对各类数据源的联邦查询,包括 MySQL、Elasticsearch、以及如 PostgreSQL 等各类支持 JDBC 接口的数据源。通过镜舟数据库,无需数据导入与整合,即可对不同数据源的数据进行极速的联合分析,带来全新业务洞见。
兼容 MySQL 协议和 MySQL 生态
镜舟数据库支持标准 SQL,兼容 MySQL 协议,周边生态接入性良好,可以使用 MySQL 客户端工具及适配各类主流 BI 工具。应用无需或者少量修改代码即可从 MySQL 迁入镜舟数据库,减少对业务的侵入性。
架构简单,运维便捷
在线弹性扩缩容
镜舟数据库的架构简洁,整个系统的核心只有 FE、BE 两类进程,不依赖任何外部组件。同时,FE 节点与 BE 节点均支持在线水平扩缩容,帮助用户降低使用成本,也可以按需在线逐步扩容,及时应对流量增⻓。扩容过程中数据自动在节点之间均衡,无需人工干预,避免了复杂的维护过程。
金融级高可用
镜舟数据库的元数据和物理数据以多副本的形式进行存储,保证元数据多数派节点可用。当节点发生故障时会自动在可用节点上补⻬副本,确保集群稳定性。用户可以按需配置副本的地理位置、数量等策略以满足不同的容灾级别要求,确保在线业务的稳定可用。
资源隔离
镜舟数据库支持资源组的管理,用户可以限制各类查询任务对计算资源的消耗。通过资源组,不同租户在同一集群内执行的查询任务间能够做到资源隔离、降低影响,并且用户能够更加高效、合理地分配和利用集群资源。
可视化管理平台
Mirrorship Manager 是一个可视化的集群管理工具,可以帮助用户通过 web 界面一键完成集群部署升级、数据迁移、告警及监控配置,大幅度降低了集群的维护成本。同时提供交互式查询界面,提供可视化查询执行分析、慢查询诊断等功能。
产品演进流程
2020.9
v1.0发布向量化引擎
2021.6
v1.16发布基于代价的优化器(CBO);发布 Apache Hive 外部表
2021.7
v1.17提升大规模数据导入稳定性,支持 1 千列,10TB 规模单表稳定导入;
2021.8
v1.18 源代码开放发布 FastDecimal;支持 Lateral Join;
2021.10
v1.19实现 Global Runtime Filter;
2022.1
v2.0发布主键模型;实现低基数全局字典;
2022.2
v2.1发布 Pipeline 执行引擎;发布 Apache Iceberg 外部表;
2022.5
v2.2发布资源组管理功能;发布 Apache Hudi 外部表;
2022.7
v2.3发布全新数据源 Connector 框架;主键模型支持持久化主键索引
2022.9
v2.4镜舟数据库正式对外;计算节点On K8S
2023.2
v2.5Local Cache for DLA、外表物化视图等;
2023.03
v3.0.0-rc01支持存算分离架构;提供BYOC云服务功能等
Future
数据湖写入能力;map/struct原生类型支持等