致ClickHouse用户的一封信

程序源代码

共 2644字,需浏览 6分钟

 · 2021-08-01

亲爱的ClickHouse用户:

您好!

感谢您在百忙之中抽出时间来阅读此信。虽然未曾谋面,但我们关注您已经有很长一段时间了。

您的企业非常重视数据分析工作,想通过数据分析来提升运营效率,发现生产经营中遇到的问题。您和您的同事每天都会查看相关的业务报表,并且愿意在报表建设上投入时间和资源。您对高效工作有极致的追求,所以您十分看重数据分析的速度。您关注大数据新技术,对新事物保持了一份可贵的好奇心。我们非常尊敬ClickHouse的工作,也非常尊敬您之前所做的工作。

但是,您的数据分析工作并非一帆风顺。有几个ClickHouse目前没有解决的问题,可能正在困扰着您。

首先,ClickHouse过度依赖大宽表。对于任何数据分析的场景,都需要您把相关数据放在一起,提前做成大宽表。先不说提前做大宽表带来的工作量,无法支持好星型模型和雪花模型,将极大限制了您分析业务数据的能力。想一想您为了构建和维护大宽表所耗费的精力,再想一想把维度表数据和海量事实表关联后产生的数据冗余,您确实为了高查询性能付出了很多额外的成本。如果您的业务还需要对某些维度列进行经常性的更新,那可能真的是一个大麻烦。对了,您还得提醒业务分析人员注意他们的SQL写法,标准SQL有时候根本跑不动。

其次,ClickHouse难以支持高并发的业务场景。您的数据分析系统只能同时提供给少数人使用。如果需要支持的业务分析人员比较多,您只能不断地搭建新的集群。当老板奇怪地问您:“为什么一个业务线需要搭建那么多ClickHouse集群?”时,想必您一定感到十分尴尬。我们理解您的难处,忍受多集群的运维管理复杂度,忍受数据多备份的空间浪费,忍受多集群的数据一致性风险,只是为了能同时让更多的人使用您的数据分析系统。

另外,ClickHouse没有对UPDATE/DELETE操作的完整支持。在实时数据分析场景下,如果你希望在高频进行更新操作时,依旧保持良好的查询性能,这是ClickHouse难以支持的。因此你不得不放弃一些业务需求,或者让业务方忍受数据的短暂不一致性。

ClickHouse集群的运维复杂度也一定曾让您感到过头疼。需要依赖第三方系统来运行副本机制;需要在配置文件中维护所有服务器的信息;扩缩容时需要创建新表重新导数据;如果数据量增大,数据表数增多,Zookeeper就会形成性能的瓶颈,甚至会出现元数据不一致的问题。

最后,您一定遇到过出现线上问题,但是找不到及时和靠谱技术支持的窘境。作为支撑公司业务发展的数据分析系统,无法提供服务就意味着管理层的决策和业务人员的工作都陷入了盲目的状态,这很有可能会影响到公司的业务发展,也可能会影响您的职业发展。

ClickHouse确实是一个非常优秀的产品。但为了获得查询时的高性能,大家确实得承担一些风险、忍受一些不便。今天,我们将为您提供一个新的选择。您不用承担这些风险、忍受这些不便,也能享受到极致的查询性能!

您可能会感到不可思议,但我们确实做到了。全新一代的极速MPP分析型数据库DorisDB,能够满足您多场景的数据分析需求。它既支持大宽表的分析模式,也支持星型模型和雪花模型分析模式;各种分布式Join查询对它来说毫无压力,CBO查询优化器可以合理规划你的复杂查询;它既支持极速的现场查询,也支持预聚合查询;它支持标准的SQL语法,兼容MySQL协议,可以直接对接各类常用的数据库管理工具和BI工具,还可以通过外表功能直接快速查询Hive数据;它不存在系统单点,不依赖任何外部系统,只要一条命令就可以自动进行扩容缩容。单集群规模可以支持到数百台服务器,10PB级数据量。

DorisDB的单表性能和ClickHouse不相上下,有的查询甚至比ClickHouse更加快!以下是DorisDB在SSB(Star Schema Benchmark)标准测试集上跑出来的结果。该测试环境由3台16核,64G内存的阿里云主机搭建。从结果看,单表测试的13个查询中,有9个查询DorisDB跑得比Clickhouse要快,并且平均要快50%左右。由于ClickHouse对多表分布式Join的支持有限,所以在多表测试结果中并没有ClickHouse的结果。


您可以访问 https://www.dorisdb.com/zh-CN/blog/1.8 来查看完整的测试报告。

还有最重要的一点,我们有能力提供本地化的技术支持服务!我们的核心研发工程师不仅可以在线回答您的问题,还能在必要时亲临现场。您再也不用担心遇到线上问题找不到技术支持,服务停了几小时也恢复不了了!

为了更好地支持您的数据分析工作,我们决定免费开放DorisDB标准版的使用权。是的,使用完全免费!

今天您就可以关注我们的公众号“DorisDB”申请试用,我们会按照申请的顺序为您提供服务。您可以非常方便地使用您的实际线上场景来试一试DorisDB,如果您是Apache Doris用户,也可以轻松升级到DorisDB。

关注公众号“DorisDB”,点击底栏“申请试用

今天,请给国产新一代MPP数据库一个机会,让鼎石数据库助力您的业务飞速发展!

好未来 x DorisDB:全新实时数仓实践,深入释放实时数据价值

八千里路云和月 | 从零到大数据专家学习路径指南

我们在学习Flink的时候,到底在学习什么?


193篇文章暴揍Flink,这个合集你需要关注一下


Flink CDC我吃定了耶稣也留不住他!| Flink CDC线上问题小盘点


我们在学习Spark的时候,到底在学习什么?


在所有Spark模块中,我愿称SparkSQL为最强!


【面试&个人成长】2021年过半,社招和校招的经验之谈


八千里路云和月 | 从零到大数据专家学习路径指南


大数据方向另一个十年开启 |《硬刚系列》第一版完结


我写过的关于成长/面试/职场进阶的文章


当我们在学习Hive的时候在学习什么?「硬刚Hive续集」


你好,我是王知无,一个大数据领域的硬核原创作者。

做过后端架构、数据中间件、数据平台&架构、算法工程化。

专注大数据领域实时动态&技术提升&个人成长&职场进阶,欢迎关注。

浏览 2
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报