流式ETL:从 Kafka 到 Kafka
你可以使用 Timeplus 快速构建流 ETL 管道。 例如,Kafka 主题中的原始 Web 访问日志包含原始 IP 地址。 为了进一步保护用户隐私,你可以建立一个数据管道来读取来自Kafka的新数据,屏蔽IP地址并发送到不同的Kafka主题。
按照 Timeplus Proton 或 Timeplus Cloud 的指南进行操作。
Timeplus Proton
You can follow the previous tutorial to setup the sample data and run the following SQL to build the pipeline.
Timeplus 云服 务
博客 已发布,其中详细介绍了从 Kafka/Redpanda 读取数据、应用转换并发送到 Kafka/Redpanda 的数据。
几个关键步骤:
- 连接到 Redpanda:
- 指定 Redpanda 代理地址和身份验证方法。
- 选择主题并预览数据。
- 设置外部流的名称,比如
frontend_events
。
- 浏览流/话题中的实时数据。
- 编写流式 SQL 来转换数据。
选择响应:状态码作为代码,十六进制(md5 (IP 地址))作为 hashed_ip,方法,requestedURL
来自 frontend_events WHERE response: StatusCode!='200'
- 将结果发送到另一 个主题。 Timeplus 将创建一个新的外部流作为目标,并创建一个物化视图作为管道。
数据谱系对关系进行了可视化。
- 新数据可在 Kafka/Redpanda 主题中找到。