行业痛点:
1)流批分离,架构运维困难。
需要分别维护实时与离线两套不同架构的服务,对于系统运行的稳定性,后续应用升级,故障处理等都比较复杂和繁琐。
2)两套模型处理,口径不一。
需要分别设计、管理实时与离线两套不同的数据处理模型,离线可以通过关联获取更加丰富的数据,而实时为了保障数据时效性能只能是简单的宽表形式进行处理,而且开发流程较繁琐,流批计算融合困难,结果不一致。
3)存储隔离,管理不统一。
因实时数据与离线数据存储介质的割裂,最终导致两者数据在存储时就相互隔离,离线和实时数据统计口径不一致,更无法对两者进行统一的数据周期管理
4)定制开发,人力成本高。
在数据服务和共享交换层,需要根据应用层进行定制化的开发,为不同的应用提供不同的数据服务方式,且技术栈不同,运营成本高。
方案特色:
1,降低流式数据对接门槛
提供Kafka对接接口,流式数据源端不需要掌握Kafka相关技术,只需要按照普通接口方式推送流式数据。
2,减轻流式数据的治理复杂度
采用方案提供的组件,利用Flink框架完成简单的流式数据治理,然后继续通过Kafka推送给消费者,以满足极高的实时性要求。如果是复杂的流式数据治理和数据开发需求,可以通过Flink将Kafka数据落地到数据中台的数据仓库,继续采用数据中台便捷的模型开发工具,实现流批数据一体的融合计算。
3,流批统一的数据共享交换模式
如果流式数据落地到数据仓库,则采用数据共享交换平台的数据接口生成与发布方式,这样不需要对流式数据单独开发共享服务。
4,流批一致的血缘追踪
通过数据中台自动采集流式数据和结构化数据的数据编目,追踪数据血缘关系,统一管理流批数据模型和数据共享记录。