跳转至主要内容

流式ETL:从 Kafka 到 Kafka

你可以使用 Timeplus 快速构建流 ETL 管道。 例如,Kafka 主题中的原始 Web 访问日志包含原始 IP 地址。 为了进一步保护用户隐私,你可以建立一个数据管道来读取来自Kafka的新数据,屏蔽IP地址并发送到不同的Kafka主题。

按照 Timeplus ProtonTimeplus Cloud 的指南进行操作。

Timeplus Proton

You can follow the previous tutorial to setup the sample data and run the following SQL to build the pipeline.

Timeplus 云服务

博客 已发布,其中详细介绍了从 Kafka/Redpanda 读取数据、应用转换并发送到 Kafka/Redpanda 的数据。

几个关键步骤:

  1. 连接到 Redpanda:

添加数据

  1. 指定 Redpanda 代理地址和身份验证方法。

经纪商

  1. 选择主题并预览数据。

预览

  1. 设置外部流的名称,比如 frontend_events

套装名称

  1. 浏览流/话题中的实时数据。

探索

  1. 编写流式 SQL 来转换数据。
选择响应:状态码作为代码,十六进制(md5 (IP 地址))作为 hashed_ip,方法,requestedURL 
来自 frontend_events WHERE response: StatusCode!='200'

sql

  1. 将结果发送到另一个主题。 Timeplus 将创建一个新的外部流作为目标,并创建一个物化视图作为管道。

数据下游

数据谱系对关系进行了可视化。

血统

  1. 新数据可在 Kafka/Redpanda 主题中找到。

结果