流式ETL:Kafka 到 ClickHouse
该视频演示了如何读取来自Redpanda的实时数据、应用流处理以及如何将结果发送到ClickHouse。 相关博客。
演示视频
子查询
https://github.com/timeplus-io/proton/tree/develop/examples/clickhouse 提供了 Docker Compose 堆栈以及示例 SQL 语句。 当你启动堆栈时,最新版本的Proton和ClickHouse以及Redpanda和数据生成器将自动启动。
示例:带有屏蔽数据的 ETL
First, create a table with ClickHouse MergeTree table engine by running clickhouse client
in the ClickHouse container.
这将成为 ClickHouse 的 Proton 外部表的目的地。 Later on, you can also read the data in Timeplus.
在演示面板撰写堆栈中,启动了Redpanda容器,以及数据生成器和Redpanda控制台,供您轻松浏览实时数据。 例如,前往 http://localhost:8080,你将在owlshop-frontend-events主题中看到实时数据。
本教程的目标是阅读这些访问日志,将敏感的IP地址转换为md5,然后将其提取到ClickHouse进行更多业务分析。
To read data from Kafka or Redpanda, you just need to create an Kafka External Stream with the following DDL SQL:
Then run the following DDL SQL to setup the connection between Timeplus and ClickHouse. 对于没有安全设置的本地 Clickhouse,可以这么简单:
CREATE EXTERNAL TABLE ch_local
SETTINGS type='clickhouse',
address='clickhouse:9000',
table='events';