UPKafka-技术产品- 中国银联开放平台

产品

UPKafka

UPKafka是一个分布式流数据平台，允许发布和订阅流记录，拥有完善的容错机制来进行流数据存储，并且可实时地处理流数据。 UPKafka主要适用于：在系统或应用程序之间，构建实时的、可靠的获取数据的流数据管道或者构建传输；构建传输或处理流数据的实时流式应用。

技术支持介质下载介质下载联系我们

产品特点

系统集成

UPKafka提供了Connector API进行UPkafka和其他系统之间可扩展的、可靠的流式传输数据。它能够快速将大量数据集合导入和导出UPKafka，也支持以UPKafka作为媒介，进行不同系统间的数据传输。

流式处理

UPKafka不仅实现了读、写、存储流式数据，还支持实时处理流式数据。UPKafka的Streams API支持构建复杂的流式数据聚合或加入流式的处理过程的应用程序。

存储系统

不同于传统的消息队列，UPKafka能够将生产者写入的消息进行实时落盘，并且允许生产者等待消息发送成功的确认反馈。此外，UPKafka所使用的磁盘存储结构扩展性很好，持久化数据的大小对UPKafka的性能无影响。

发布-订阅

UPKafka以Topic为存储相关消息的载体，将生产者与消费者分开，消费者以消费组的形式存在。

在UPKafka的发布-订阅模式中，消息记录会广播给订阅了消息所在Topic的所有的消费组。这样能够支持不同业务仅需要以消费组为单位，就能对同一Topic下的消息进行各自的处理。

应用场景

提交日志

事件源

流式处理

日志聚合

网页跟踪活动

UPKafka可以为分布式系统作为一种外部的提交日志进行服务。UPKafka的日志功能帮助完成结点之间的数据备份，并对于宕机的结点，通过“重新同步”的机制，帮助完成存储数据。UPKafka的日志压缩功能支持这一用例的需求功能。

事件源是一种应用的设计模式，状态的变化按照时间顺序存储到log的队列中。UPKafka支持存储海量的数据，这一特性使得应用可按照这一风格进行后台应用的构建。

UPKafka处理数据一般通过由多个阶段组成的数据处理管道,首先topics的数据作为原始数据被消费，然后数据被聚合、进一步丰富数据内容、或者转换传输到新的topics，等待进一步消费或后续处理。这样的数据处理管道会根据各个topic创建实时数据流图。

UPKafka被广泛使用用作日志收集、聚合替代的解决方案。日志收集、聚合通常从servers上收集物理日志文件，并将日志文件汇总到一个中央结点(一个文件服务器或者HDFS)进行处理。UPKafka脱离了文件的细节进行了抽象,并给出了一个更简洁的抽象模型，将日志或事件消息的数据作为消息数据流。这一功能使得处理过程低延时，并使得支持多数据源和分布式数据消费更加简单。

UPKafka的初始用例能够重构一个用户活动跟踪管道，作为实时发布-订阅的反馈系统。这意味着网站活动（页面浏览,搜索,或用户可能采取的其他行为)是发布到中央topics，每一种行为类型一种topic。这些反馈内容可供实时处理应用、实时监控应用订阅,并加载到Hadoop或离线数据仓库系统进行离线处理和报告。

常见问题