数据收集
Timeplus supports multiple ways to load data into the system, or access the external data without copying them in Timeplus:
- External Stream for Apache Kafka, Confluent, Redpanda, and other Kafka API compatible data streaming platform. This feature is also available in Timeplus Proton.
- External Stream for Apache Pulsar is available in Timeplus Enterprise 2.5 and above.
- Source for extra wide range of data sources. 这仅在 Timeplus Enterprise 中可用。 This integrates with Redpanda Connect, supporting 200+ connectors.
- On Timeplus web console, you can also upload CSV files and import them into streams.
- For Timeplus Enterprise, REST API and SDKs are provided to push data to Timeplus programmatically.
- On top of the REST API and SDKs, Timeplus Enterprise adds integrations with Kafka Connect, AirByte, Sling, seatunnel and datapm.
- Last but not the least, if you are not ready to load your real data into Timeplus, or just want to play with the system, you can use the web console to create sample streaming data, or use SQL to create random streams.
通过 web 控制台添加新源
从Apache Kafka加载流数据
截至今天,Kafka是Timeplus的主要数据集成。 通过与Confluent的强大伙伴关系,我们可以将来自Confluent Cloud、Confluent Platform或Apache Kafka的实时数据加载到TimePlus流式引擎。 You can also create external streams to analyze data in Confluent/Kafka/Redpanda without moving data.
从 Apache Pulsar 加载流数据
Apache® PulsarTM 是一个云端、分发、开源消息和流式平台,用于实时工作量。 Timeplus增加了对Apache Pulsar的集成,它既是数据源又是数据下游。
从 Kinesis 加载流式数据
如果您的流数据在 Amazon Kinesis 数据流 中,您可以分两步把它们加载到 Timeplus中。
- 首先通过 将Kinesis 源连接器为 Confluent Cloud 或 Amazon Kinesis 源连接器将Kinesis 数据加载到 Kafka 主题
- 使用 Timeplus 上面的Kafka 源将数据加载到流中。
数据流可以用以下方式说明:
上传本地文件
如果您有一些静态数据集或查找CSV格式的表,您可以直接上传文件到Timeplus。
- 点击 从导航菜单中添加数据。 然后点击 从 CSV 导入 按钮
- 从您的本地文件系统拖放一个 CSV 文件来上传文件。 (即将推出:如果您的文件是从 URL 或 S3 存储桶中下载,那么您可以创建数据源来让 Timeplus 服务器加载该文件。 CSV 以外的文件格式也将得到支持。
- 选择文件的第一行是否为列标题。
- 为流指定一个名称,并可选择提供一个可读的描述。
- 单击按钮开始上传数据,然后单击 查看导入的数据 按钮运行查询以查看导入的数据。
加载示例流数据
如果您没有准备好将您的真实数据加载到Timeplus中,或者只是想要与系统一起玩, 您可以使用此功能加载一些采样流数据。 我们提供了三个典型的流数据。
iot
将生成3台设备(device_0,device_1 和 device_2)的数据。数字
值可以是 0 到 100 之间。时间
列是事件生成的时间。user_logins
将从两个可能的城市
的值:上海或北京中生成两个用户的数据(用户1和用户2)。