跳转至主要内容

流式ETL:从 Kafka 到 Kafka

你可以使用 Timeplus 快速构建流 ETL 管道。 例如,Kafka 主题中的原始 Web 访问日志包含原始 IP 地址。 为了进一步保护用户隐私,你可以建立一个数据管道来读取来自Kafka的新数据,屏蔽IP地址并发送到不同的Kafka主题。

按照 Timeplus ProtonTimeplus Cloud 的指南进行操作。

Timeplus Proton

您可以按照 [前面的教程](tutorial-sql-kafka)设置示例数据,并运行以下 SQL 来构建管道。

Timeplus 云服务

博客 已发布,其中详细介绍了从 Kafka/Redpanda 读取数据、应用转换并发送到 Kafka/Redpanda 的数据。

几个关键步骤:

  1. 连接到 Redpanda:

添加数据

  1. 指定 Redpanda 代理地址和身份验证方法。

经纪商

  1. 选择主题并预览数据。

预览

  1. 设置外部流的名称,比如 frontend_events

套装名称

  1. 浏览流/话题中的实时数据。

探索

  1. 编写流式 SQL 来转换数据。
选择响应:状态码作为代码,十六进制(md5 (IP 地址))作为 hashed_ip,方法,requestedURL 
来自 frontend_events WHERE response: StatusCode!='200'

sql

  1. 将结果发送到另一个主题。 Timeplus 将创建一个新的外部流作为目标,并创建一个物化视图作为管道。

数据下游

数据谱系对关系进行了可视化。

血统

  1. 新数据可在 Kafka/Redpanda 主题中找到。

结果