1500字范文 > Apache Doris(incubating) 0.10.0版本发布

Apache Doris(incubating) 0.10.0版本发布

时间：2024-09-12 20:10:05

上周，Apache Doris(incubating) 通过社区投票，成功发布 0.10.0 版本。

Doris 是什么

Doris（原百度 Palo）是一款基于大规模并行处理技术的分布式 SQL 数据库，由百度在开源，进入 Apache 孵化器。

Doris 的主要特性

1.兼容MySQL协议，支持包括多表Join、子查询、窗口函数、CTE在内的丰富的SQL语法。支持诸多常见BI报表系统，能极大降低用户的学习和迁移成本。

2.支持高并发点查询和高吞吐的多维分析查询场景。通过分区裁剪、预聚合、谓词下推、向量化执行等技术，以及高效的列式存储引擎即数据压缩算法，满足不同业务场景下的延迟和吞吐需求。

3. 特有的数据预聚合功能。支持预聚合表和基准表同步原子更新，为报表场景提供更快速的查询响应。

4.提供强大的扩展性和高可用特性。所有数据都采用多副本的方式保证数据的高可靠。同时提供全自动的副本选择、均衡和修复功能，为用户提供7*24 小时的高可用数据库系统。

5.提供友好的在线表结构变更功能，能有效应对业务上的需求变化。

6. 提供两级数据划分功能以及分层存储功能。用户可以更灵活的对数据进行管理和维护。

Doris在百度内部已应用于包括百度凤巢、百度统计等200多个业务线。最大单一业务数据量超过500TB。同时在百度智能云和toB业务中也获得了高度认可。自开源以来，已有包括小米、美团、搜狐、新浪微博、瓜子、链家、上海绎维、零售魔方、量化派在内的十多家公司将 Doris 使用在生产环境中。

0.10.0版本新特性一览

1. 例行导入支持

用户可以通过简单的命令，配置一个例行导入作业。该作业会自动从指定数据源将数据源源不断的导入到 Doris 系统中。Doris 当前支持对 Kafka 系统配置例行导入作业。一个简单的示例如下：

CREATE ROUTINE LOAD example_db.test1 ON example_tblCOLUMNS(k1, k2, k3, v1, v2, v3 = k1 * 100),WHERE k1 > 100 and k2 like "%doris%"PROPERTIES("desired_concurrent_number"="3","max_batch_interval" = "20","max_batch_rows" = "300000","max_batch_size" = "209715200")

FROM KAFKA("kafka_broker_list" = "broker1:9092,broker2:9092,broker3:9092","kafka_topic" = "my_topic","kafka_partitions" = "0,1,2,3","kafka_offsets" = "101,0,0,200");

Doris 提供对 Kafka 数据Exactly Once的导入语义保证，可以做到对数据的不丢不重。不仅如此，Doris 还支持在例行导入作业中，对源数据进行数据转换或条件过滤，使得用户能够方便的导入未清理的数据。同时，例行导入功能可以通过调整并发数和子任务的处理时间，达到50-100MB/s 的导入吞吐，或者秒级的导入延迟。

更多细节，可以参阅 [例行导入文档]

(http://doris./Docs/cn/administrator-guide/load-data/routine-load-manual.html)

2. Doris On Elasticsearch

Doris 现在可以通过外部表的方式，直接访问 Elasticsearch。一个简单的示例如下：

CREATE EXTERNAL TABLE `es_table` (`id` bigint(20) COMMENT "",`k1` bigint(20) COMMENT "",`k2` datetime COMMENT "",`k3` varchar(20) COMMENT "",`k4` varchar(100) COMMENT "",`k5` float COMMENT "") ENGINE=ELASTICSEARCHPARTITION BY RANGE(`id`)()PROPERTIES ("host" = "http://192.168.0.1:8200,http://192.168.0.2:8200","user" = "root","password" = "root","index" = "tindex”,"type" = "doc");

Doris 提供了一个全新的esquery()函数，可以直接在其中输入 ES 的 Json 查询语法，使得没写 SQL 无法表达的 ES 查询得以实现：

select * from es_table where esquery(k4, '{"geo_shape": {"location": {"shape": {"type": "envelope","coordinates": [[13,53],[14,52]]},"relation": "within"}}}');