海洋时空大数据多态存储模型

        时空大数据存储与管理技术是所有分析计算工作的基础保障性,然而其现状不容乐观:(1)国内主流软件仍采用关系型数据库与空间数据库引擎结合的方式,在数据汇聚灵活性、存储扩展性、资源协同性方面都存在很大限制;(2)核心技术依赖国外产品,国家安全受到潜在威胁;(3)数据之间的关联关系、跨域级联更新技术瓶颈难以突破,空间数据库扩展性和现势性受限。本研究创新性地提出了一种分布式云环境下的多态存储模型,扩展了固态云计算与内存计算技术,研制了融合高精度、高频度、大规模的高可扩展数据管理中间件引擎,研发了分布式云环境下的海洋时空大数据库管理系统。该系统具备PB级、高安全、高扩展、高可靠性等功能,为大数据时代海洋空间信息的动态汇聚、实时获取提供了技术保障。

海洋时空大数据多态存储模型

海洋空间信息分布式管理引擎

国产PB级大规模海洋空间数据管理系统

        本研究研制了大规模海洋空间信息分布式管理中间件,研发了双态云支持的国产PB级大规模海洋空间数据管理系统软件,解决了大规模海洋信息的高可扩展存储、高效率检索、级联更新等技术难题,实现了海洋时空大数据分布式管理的核心技术国产化,打破了国外技术长期垄断局面。

        关键技术一:首创了自主知识产权的海洋时空大数据多态存储技术,打破了国外数据库技术长期垄断局面。

        海洋时空数据来源多、规模大且结构极其复杂,传统上采用的数据库管理方式在数据汇聚灵活性、存储扩展性、资源协同性方面都存在明显不足,限制了多源海洋时空数据的综合应用。另一方面,当前国外商用平台在关系型数据库及空间数据引擎上占据主导地位,使得数据安全性存在巨大隐患,严重威胁到国家的核心利益。

        本项目探索并创新了具有高可扩展性的多源海洋时空数据规整化汇聚机制,从数据源头突破了限制海洋时空大数据处理和分析能力的技术瓶颈;独创性地提出一种新型的、具有自主知识产权的大规模海洋异构时空数据双态云存储模型,按照访问热度将数据进行多级多态存储,根据自定义的数据热冷阈值将数据自动按照在线、离线与近线进行组织,通过数据访问频率与置换策略将数据存储为内存与硬盘两种状态用以提高数据访问命中率;设计并实现了针对海洋高分辨率遥感、高频现场监测和超海量模式计算数据的多维多域一体化管控引擎;通过融合并拓展Spark内存计算框架和Shark分布式SQL查询引擎,为海洋时空大数据的并发检索与深度挖掘提供了一种高效的分布式解决方案,有效的解决了云环境下海量高频浮标数据、高分辨率遥感影像等海洋时空数据的快速检索问题,开创了遥感、船测、数值计算等多源数据协同的崭新局面。

        关键技术二:创新性地发明了分布式云环境下海洋时空数据库多级联动更新的方法,推动了海洋空间信息的大规模社会化应用。

        面对当前国家、省、市、县海洋环境监测多级跨域海洋信息数据库建设及持续更新过程中遇到的重重困难,传统的更新模式难以实现动态化更新的要求。本项目创造性地发明了一种基于多基态+版本的分布式云环境下的数据库联动更新方法,突破了多级海洋监测信息数据库联动更新、跨域级联更新等技术瓶颈,建立了多源海洋环境监测信息快速动态化更新技术体系,推动了海洋监测信息的大规模社会化应用。

        该研究成果在海洋公益专项“浙江近岸海域海洋生态环境动态监测与服务平台技术研究及应用示范”中得到充分应用,成功构建了浙江近岸省、市、县(台站)三级监控平台,实现了海量海洋监测数据的动态更新显示及信息产品的实时发布。

        关键技术三:研发了分布式环境下云存储节点的可扩展模型,改变了传统海洋信息存储和调度过程。

        针对固态云计算与内存计算技术在大数据存储及调度过程遇到的资源协同与系统稳定性方面的技术瓶颈,本研究首创性地提出了一种云环境下存储节点的可扩展模型。该模型采用了硬件资源虚拟化技术降低与物理节点的耦合性,创新性的提出了虚拟磁盘空间的概念,将海洋时空数据的存储空间虚拟化成可拓展的多个虚拟磁盘空间,并通过虚拟磁盘空间与物理节点的映射策略,简化了数据负载均衡算法,实现了数据存储平台全体系无单点,提供了一种高可扩展、高可用的存储管理解决方案,解决了当前海洋空间信息高速增长、高频更新所带来的存储瓶颈,在大规模海洋信息存储领域具有极高的推广应用价值。