随着现代信息化的发展,数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。从全局视角集成企业内外数据资源、通过大数据技术综合挖掘和运用海量数据资产,是提高企业竞争力的新的重要途径之一。大型企业和政府部门的信息系统建设通常具有阶段性和分散性的特点,导致普遍存在“信息孤岛”和“数据烟囱”现象,不同应用系统、不同部门和不同领域间的数据资源不能交互和共享,造成企业内一方面存在大量冗余数据,另一方面面对新应用,尤其是全局性、集约型、综合式应用无合适数据可用,严重地阻碍了数据作为生产要素发挥应有的作用。集成企业内外相关数据资源是发挥数据生产要素的必备条件。但是,数据表达形式的千差万别、数据质量的参差不齐、数据管理系统的截然不同、数据采集实现方式的难以预测,使得数据集成实施要面临数据表达形式差异转换、数据管理系统兼容处理、数据质量检查和数据清洗、数据采集流程的编制等不同层面的各种困难,若无可靠易用的基础数据集成系统支撑和可信专业的数据集成技术服务支持,很难落实企业数据集成工作,达到预期的数据集成目标。
针对以上背景,电子政务建模仿真国家工程实验室数据集成团队基于多年来在众多大型政务项目中数据采集积累的经验,投入大量研发力量倾力打造了SMDI数据采集平台。SMDI可帮助企事业单位实现数据在单位内外的集成和流通,使沉睡的数据重新恢复生命力,通过挖掘数据的价值促进企事业单位的发展。
图1_数据采集要求
SMDI(Schema Mapping Data Integration)数据采集平台是一个专业、易用、安全、高效的数据集成平台,内置众多抽取、转换、清洗和装载等ETL组件,并支持动态扩展组件,满足不同数据采集任务需求;提供采集数据规格定义、数据采集作业建模、数据采集任务管理、数据采集执行监控和采集数据统计数据采集工作全生命周期图形化操作界面,简化数据采集工作;支持常用标准加密算法,可集成第三方加密机制,确保数据存储和数据传输过程中的数据安全;采用分布式、多线程技术、异步装载等效率提升技术手段,提升数据采集执行效率。
SMDI数据集成解决方案由以下四部分产品组件组成:数据采集源端管理系统(SMDI Source Side Console)、数据采集中心管理系统(SMDI Center Console)、数据采集器(SMDI Data Collector)和数据装载器(SMDI Data Loader)。
图2_数据采集架构
SMDI数据采集中心管理系统(SMDI Center Console)主要功能包括采集数据需求定义、采集数据需求发布、数据采集模型接收、数据采集模型审阅、数据采集配置管理、数据采集任务监控、采集数据统计分析。为数据采集中心主管部门或单位提供数据采集需求定义、数据采集模型审阅、数据采集运行配置、数据采集任务监控和采集数据统计分析的中心端数据采集图形化全生命周期管理功能。部分功能截图如下:
图3_标准表定义
图4_校验规则管理
图5_数据采集监控
图6_数据采集统计
SMDI数据源端管理系统主要包含采集数据规格获取、相关数据资源结构导入、数据采集任务建模、数据采集模型上报、数据采集任务管理、数据采集任务监控和采集数据统计分析等功能,为采集数据来源部门或单位提供数据采集需求了解、数据采集模型建立、数据采集执行、数据采集监控和采集数据统计的数据采集源端图形化全生命周期管理功能。部分功能截图如下:
图7_源端采集任务建模
图8_数据值项映射管理
图9_任务运行实时状态监控
根据以上对SMDI数据采集平台了解, 以下对SMDI数据采集平台实施流程,整个数据采集工作机制讲解,首先由中心数据采集人员定义数据采集需求,并发布给各个源端数据采集人员;源端数据采集工作人员获取到数据采集需求后,学习了解数据采集需求,根据需求建立数据采集任务模型,并报送中心数据采集人员;中心数据采集人员获取源端报送数据采集模型后,审核数据采集模型,确保模型可满足需求;若数据采集模型可满足数据采集需求,中心端和源端数据采集人员分别做中心端和源端数据采集任务相关配置;任务配置完成后,地方端数据采集人员可手动或定时执行数据采集任务;中心端数据采集人员和地方端数据采集人员可分别从中心全局和源端监控数据采集任务执行、统计采集数据状态,发现数据采集执行问题和采集数据质量问题。如图所示:
图10_数据采集流程
SMDI数据采集平台优点有,数据更兼容更规范:兼容主流数据库、常见文件格式、通用应用服务标准等不同形式数据源。同时兼容不同的数据管理系统。省却多次复杂操作,使用更简便。能把多种数据源,多种表达方式的数据按照相应的规则,对数据进行规范约束并管理。数据更有效更高效:多种数据检查规则和数据清洗,完成数据从抽取、转换、清洗到装载的全过程。采用分布式、多线程技术、异步装载等效率提升技术手段,提升数据采集执行效率。数据更安全:支持常用标准加密算法,可集成第三方加密机制,确保数据存储和数据传输过程中的数据安全。