数据湖通常具备多源异构数据的采集能力、强大的数据存储和计算能力、完善的数据管理与服务能力,需要满足新形势下灵活多样的数据治理需求。数据湖可以兼容结构化、空间地理数据、半结构化、非结构化和流式数据多种数据格式。支持流批一体架构,并兼顾流处理的及时性和批处理的可靠性。支持空间地理计算并与其他数据的融合处理。
在建设数据湖架构时,我们为用户提供如下关键技术服务:
1、建立高可靠性、高性能、可伸缩的分布式存储系统,统一承载海量结构化、半结构化以及非结构化数据。
2、建立结构化数据的计算分析引擎,非结构化文件共享检索和文本自然语言处理引擎(NLP),流式数据的实时处理引擎,二三维一体化空间地理融合引擎。并依据业务需求,实现各类数据的关联处理,比如通过语义解析文本数据中的实体属性,关联到结构化数据库的维度分析,进而与二三维地理进行综合计算与展现。
3、精细的数据资产管理方案,从冷热数据、元数据血缘、数据标签的角度,实现“数据自治”和价值提炼。