ClickHouse在数据平台中的实例简介
发布时间:2023-10-21 13:06:26 所属栏目:大数据 来源:
导读:自从出现了Hadoop 生态系统之后,人们对大数据的优势有了更深入的理解,随着Hadoop生态的不断发展,它的大数据处理能力已经被业界充分认可。用户可以根据自己的业务需要选择合适的Hadoop生态组件组成自己的大数据处理
自从出现了Hadoop 生态系统之后,人们对大数据的优势有了更深入的理解,随着Hadoop生态的不断发展,它的大数据处理能力已经被业界充分认可。用户可以根据自己的业务需要选择合适的Hadoop生态组件组成自己的大数据处理框架,这里我们以大数据Lambda架构为例对Hadoop生态方案进行说明,其架构图如下所示。 大数据Lambda架构分为三层,下面分别进行描述。 批量处理层(Batch Layer):对不可变数据进行批量处理。因为如果在业务需要查询时对大量数据集进行在线查询计算代价会很高,所以可以对查询事先进行预计算,生成对应的Views,这样查询的速度会提高很多。批处理层采用不可变模型对所有数据进行了存储,并根据不同的业务需求对数据进行了不同的预查询,生成对应的Batch Views,这些Batch Views提供给上层的Serving Layer进行进一步的查询。 实时流处理层(Speed Layer):因为批处理层是对全量数据集进行查询,花费的时间会比较长(通常以小时甚至是天为单位)。新进入系统的数据就无法及时被用户查询,导致用户得到的结果不正确。因此需要实时流处理层来处理增量的实时数据。 服务层(Serving Layer):用于响应用户的查询请求,它将批处理层和实时流处理层的结果进行合并,把得到的最终结果返回给用户。 大数据Lambda不同的层可以根据实际业务选择合适的Hadoop生态组件,可能的选择如下图粗体文字所示: 通过上面我们对相比于传统开源项目的Hadoop企业级生态虚拟化方案的进一步介绍我们可以看到,传统方案使用的生态组件多,这就会导致所需硬件资源多、维护困难、使用门槛高等各种问题,而ClickHouse方案就没有上述的各种问题,让我们接着往下看。 Part 02ClickHouse介绍 ClickHouse是俄罗斯的Yandex于2016年开源的用于在线分析处理查询(OLAP :Online Analytical Processing)MPP架构的列式存储数据库(DBMS:Database Management System),能够使用 SQL 查询实时生成分析数据报告。ClickHouse可以做用户行为分析,六批一体。线性扩展和可靠性保障能够原生支持 shard + replication。ClickHouse没有走Hadoop生态,采用Local attached storage作为存储。 ClickHouse通过向量化执行以及对CPU底层指令集(SIMD)的使用,它可以对海量数据进行并行处理,从而加快数据的处理速度。通过使用这种方法,我们可以快速、准确地完成任务,而不需要重新编译或调试代码。 (编辑:马鞍山站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
推荐文章
站长推荐