职业院校数据中台设计

访问次数:0 新闻来源:管理员 发生时间:2025-08-08

职业院校数据中台设计

1.1统一数据中心平台

数据中心平台的建设是帮助学校实现教育业务数据的有效集成应用,进行信息数据标准化建设,为学校提供数据采集、数据共享、智能分析,完成各教育业务系统数据的全面整合、共享交换;解决学校数据治理难,数据共享交换困难,信息孤岛等问题,推动学校信息化,标准化,规范化的健康良性发展;通过科学分析、综合利用数据中心平台运行后生成的各类教育业务数据,为教育行政管理和教育规划决策,提供科学可靠的参考依据。

 b812c4cf-2032-4295-a91b-76093d7aadd0.png

学校数据中心

4a573bd2-6dc2-4ee2-8ad6-a7597e292b4c.png

 

省校应用业务数据同步机制

1.1.1数据源管理

数据源管理模块作为数据管理体系的关键枢纽,可高效管理多种类型数据源与应用系统配置,为数据交互、整合和分析筑牢根基。

支持多类型数据源全生命周期管理,支持关系型数据源,接口数据源,文件数据源,大数据数据源的配置管理。

1)关系型数据源:支持对主流关系型数据库,包括 Oracle、MySQL、SQL Server、GaussDB、PGSQL 等进行连接信息管理。无论是数据库的新增接入、已有连接信息修改,还是废弃数据源删除,都能轻松操作。同时提供测试数据库连接功能,可实时验证数据库连接的有效性,确保数据传输链路畅通无阻。

2)接口数据源:支持接口数据源的添加、修改、删除,支持测试数据库连接、添加接口,进行接口测试等。可维护接口数据源的基本信息、鉴权信息、接口配置等。

接口管理:支持 OAuth2.0、Bearer Token、Basic Auth、AWS Signature、API key 等多种鉴权方式,满足不同接口的安全验证需求。同时,具备接口测试功能,能快速检测接口连通性和数据传输准确性,确保接口数据源稳定可用。

3)文件数据源:支持 FTP、SFTP、FAST DFSD 等多种文件协议,可轻松管理各类文件数据源信息。无论是从远程服务器传输文件,还是在本地与服务器间进行文件交互,都能实现高效、安全的管理。

4)大数据数据源:对于大数据领域常用的 Kafka 数据源,模块支持其连接信息配置,并具备增加、修改、删除数据源以及测试数据库连接的功能,方便用户灵活管理大数据相关的数据源,为大数据分析和处理提供有力支撑。

5)业务系统配置:支持业务系统信息配置,可关联责任人与责任部门,明确各应用系统的管理权责。通过这种方式,不仅便于对业务系统进行统一管理和维护,还能在出现问题时快速定位责任人,提高管理效率和问题处理速度。

1.1.2信息标准管理

信息标准建设需要包含代码标准管理、数据标准管理、引用体系文件管理。

1)代码标准管理

聚焦于构建学校级《智慧校园数据标准代码集》,从宏观层面出发,对学校数据进行分类编码。该管理模式着重于数据的整合与信息架构,不受具体业务系统或数据库代码设计的限制,确保代码标准的通用性与前瞻性。

支持代码标准的全生命周期管理,涵盖增加、删除、启用 / 禁用等基础操作;同时具备导入、导出、合并、拆分等高级功能,方便标准的更新与迁移;还能实现代码映射,助力不同系统间的数据交互。此外,模块可导出初始化建库 SQL,便于数据库快速部署。并且支持新标准制定与老标准导入,无缝衔接历史数据与未来发展需求。

支持代码集标准的发布,取消发布,废弃,启用等操作以满足学校信息化建设过程中统一标准,统一数据语言。

2)数据标准管理

建设学校的《智慧校园数据标准集》,以数据集(如数据库中的表)的形式确立某种类别的数据在其名称、含意、表示格式、标识等方面的特征,用数据的分类与编码的形式确立对某种类别的数据所作的进一步的分类并对分类结果赋予特定代码,以达到对该种数据类别或其分类结果在语义上的无歧义理解。

通过建设《智慧校园数据标准集》,模块以数据集(类似数据库表)为载体,精准定义各类数据在名称、含义、表示格式、标识等关键属性。同时,运用数据分类与编码,进一步细化数据类别并赋予唯一代码,消除数据理解歧义,确保数据在不同场景下的准确解读与应用。

在功能实现上,支持标准数据集的增加、删除、启用 / 禁用等常规操作,以及导入、导出和导出初始化建库 SQL,方便数据标准的迁移与部署。此外,同样支持新标准制定与老标准导入,充分满足数据标准迭代升级的需求,保障数据体系始终契合业务发展。

支持数据集标准的发布,取消发布,废弃,启用等操作以满足学校实际落标业务场景。

3)引用体系文件

支持对信息标准参照的规范性引用文件进行管理,如参照的国家标准、行业标准。国家标准文件、行业标准文件为非结构数据,要求可以支持这类非结构化数据的上传、下载、删除。

1.1.3元数据管理

要求提供元数据采集、元数据维护、元数据分析、数据地图;支持一键自动采集元数据,解决手工添加元数据的麻烦;支持数据地图下钻;支持字段的追本溯源及影响分析,支持元数据版本管理。

1)元数据采集

采集公共数据库和代码库的库等数据库表结构的数据库表、视图信息。

一键自动采集元数据,支持覆盖和新增两种模式,新增模式采集的元数据变化采集到新版本,覆盖模式采集的元数据只显示最新版本,手工采集可以浏览已采集、未采集,查询数据库与元数据不一致的表、视图。

2)元数据维护

支持随时查看系统表结构及视图信息,掌握数据架构全貌。通过追踪元数据历史版本信息与轨迹记录,能清晰了解元数据的演变过程。此外,支持对元数据结构进行增加、删除、修改、查询操作,还可维护数据间的关联关系,保障元数据体系的动态更新与稳定运行。

3)元数据分析

支持以表/视图或者字段的维度展示元数据的影响分析、血缘分析、全链分析、关联分析;支持通过元数据版本追踪,用户可快速定位数据问题。向上,能够追溯数据的源头,明晰数据的产生路径;向下,可追踪数据变化对下游系统的影响范围,助力用户高效解决数据问题,保障数据流转的可靠性与安全性。

4)数据地图

在系统宏观层面对系统数据流分析,依据元数据关系自动查看数据地图,无需人工编辑。

支持图形化展示数据地图,支持数据地图的放大、缩小、拖动等操作,方便用户从不同视角查看。支持数据地图下钻功能,用户可深入查看表与表、字段与字段之间的关联关系,直观呈现数据脉络,帮助用户快速理解数据流向与内在联系,为数据管理与决策提供清晰的可视化依据。

1.1.4数仓管理

1)在数据仓库分层管理方面,充分考虑学校业务的多样性与复杂性,支持自定义数据仓库分层,用户可根据实际需求新增、编辑、删除分层信息,实现数据仓库架构的个性化定制。 数仓分层分类涵盖贴源层、仓库层和应用层,每一层都可设置专属的数仓建设规范,确保数据在各层级的处理和存储都符合标准。

2)贴源层支持业务分类配置,可进行三级业务分类的新增、编辑、删除操作,帮助学校对原始数据进行细致归类;

3)数仓层支持数据域配置,业务过程可与数据域关联,且业务过程支持两级子集划分,便于对数据进行深度整合与分析;

4)应用层则支持数据集市配置,主题域与数据集市相关联,主题域同样支持两级子集设置,满足学校多样化的应用需求,实现数据的精准输出与高效利用。

1.1.5模型管理

支持新增贴源层,数仓层,应用层模型时,先配置基本信息,再配置字段信息,配置字段信息能自动转化成SQL代码信息。

1用户可灵活配置模型的发布环境,并实现启用和停用的便捷操作,保障模型在不同阶段的稳定运行;

支持对模型默认字段信息进行全方位管理,无论是启用、停用字段,还是调整字段位置,都能轻松实现,为模型的标准化建设与个性化定制奠定坚实基础。

(2)贴源层模型管理中,支持配置详细的数据库模型信息,通过批量导入导出功能,大幅提升数据迁移效率;还可直接创建业务表,完成模型发布、查看发布记录以及删除未发布模型等操作,确保原始数据模型的有序管理。

(3)数仓层模型管理则进一步满足深度数据处理需求,除具备基础操作外,在创建汇总表、明细表和维度表时,支持字段配置与 SQL 代码的自动生成及复制,显著减少开发工作量,加速数据仓库的构建进程。

(4)应用层模型管理聚焦数据的实际应用,支持应用表创建、模型发布与记录查看,且在查看发布记录时可预览字段和代码信息并复制,方便数据的快速调用与复用,实现数据价值的高效转化。

5模型关系图支持模型自动解析,以直观可视化的业务关系图,清晰呈现数据的业务流程脉络,帮助用户快速理解数据间的复杂关联;同时支持手动拖拉拽的交互配置方式,满足用户对关系图的个性化定制需求,并支持导出画布中的关系图,便于数据成果的分享与进一步分析。

1.1.6数据集成

数据集成支持高性能、跨平台、跨系统、异构数据库、可扩展的数据交换,能通过统一的通道实现各应用系统之间的数据双向交换。支持多种数据类型,多种数据库的双向数据交换,管理数据抽取、过滤、清洗和载入过程。

数据集成要采用高效的增量抽取技术,内存全量比对技术,具备良好的数据抽取性能。

支持图形化拖拽设计方式的集成作业设计工具,通过鼠标进行拖拽,配置就可以完成,无需编任何代码。

支持通过调度任务实时或定时周期性的抽取,转换业务数据统一集成到数据中心。

(1)首页:支持管理员可通过模块实时监控集成任务健康状态,涵盖调度总数、作业总数、异常调度数、异常作业数及作业成功率等关键指标。支持展示数据交换成功或失败趋势图,支持按月、日统计,直观呈现数据交换趋势;同时统计作业耗时 TOP5 与数据交换量 TOP5,助力快速定位性能瓶颈。此外,支持实时展示执行中与异常作业信息,便于及时发现并解决问题,保障数据集成任务高效运行。

(2)作业管理:以图形化拖拽的方式实现数据抽取,转换规则的作业配置。

新增作业时,支持增量、全量数据交换模式。目标表不存在时,支持在线建模。修改作业、删除作业、执行作业、查看作业执行日志、单个或批量对作业设置预警配置,方便作业异常时相关人员能第一时间处理异常。

支持回收站功能:删除作业时,支持进入回收站,可减少误操作风险。回收站的作业支持一键恢复,或者一键删除。恢复的作业可继续执行。删除的作业则彻底删除。

支持一键入湖操作:当对接业务系统数据入湖时,平台支持一键入湖操作,可将全量数据一次入湖。减少单个对象入湖任务配置的工作。

支持数据预处理:在数据传输过程中做轻量级转换处理,支持裁剪列、脱敏列。支持断点续传,可从任务失败的地方开始继续同步,针对长时间同步任务,避免失败后数据得全量重新同步。支持向导式批量创建集成作业任务,快速完成同构、异构数据源间数据同步任务配置,实现多表的数据迁移。

支持异构数据库的类型和长度的自动转换:自定义配置字符类型长度扩充倍数和类型转换,避免数据同步失败。

支持在同一张源表存在多类型字段,且字段类型包含BLOB、CLOB的大字段情况下的实时数据同步。数据同步过程支持并兼容数据源结构变化同步,支持在新增表、新增字段、删除字段、非主键字段修改名称、修改类型后,能够实现目标数据库自动调整修复。

(3)调度管理:为集成任务指定作业、存储过程、shell脚本,设置任务执行时间,支持任务的启动停止,手工执行。支持按秒、分、小时、天、周、月设置数据交换频率,支持设置增量、全量交换,支持图形化的交换配置界面。

支持最大数据集成并发任务数设置,支持当调度任务达到所设置的最大并发任务数时,数据同步任务能够自动排队。

(4)存储过程管理:管理数据采集的存储过程。支持增加存储过程、查询存储过程、删除存储过程。

(5)shell管理:管理数据采集的shell脚本。支持增加shell脚本、查询shell脚本、删除shell脚本。

(6)线下数据管理:针对学校线下保存的 Excel 文件数据,模块提供一站式管理功能。支持在线建表、编辑、删除及查看表与表数据,可批量建表、导入数据,并自由配置表存放目录。

在批量导入数据时,同步进行数据质量检查,导入后即可查看异常数据,支持直接修改保存;同时支持模糊查找替换、自定义多筛选条件组合查询,大幅提升线下数据处理效率。

接口数据采集:采集管理接口数据进入数仓。将接口数据变成关系型数据,辅助数仓建设。支持接口采集作业创建时,目标表支持自动创建目标表,同时字段映射支持多种方式:手动映射,自动映射,同行映射,同名映射,全部取消映射等。数据插入方式支持新增和覆盖。支持设置作业目录,启用/停用,单个/批量作业预警。作业执行完成后支持查看执行记录。

1.1.7数据质量

提供精细化的规则管理、灵活化的方案构建、全面化的执行记录与深度分析,形成了一套完整的数据质量管控体系,有效提升数据质量,为学校数据中心的数据管理与应用注入强大动力,助力实现数据价值的最大化

(1)质量规则管理:聚焦于数据规则与业务规则的全流程管理,支持创建专属规则库,为数据质量把控筑牢基础。

支持用户不仅能够自主定义各类规则,还可便捷地从标准中引入规则,确保规则与行业标准或校内规范保持一致。当标准发生变更时,支持手动同步更新,保证规则的时效性与准确性,避免因标准滞后导致的数据质量隐患。

质量规则覆盖多种关键维度,全面保障数据质量。在完整性方面,通过非空检查确保数据无缺失;非重复性维度下,利用非重复检查避免数据冗余;一致性检查针对数据类型,涵盖整型、浮点型、布尔型等常见类型,保证数据格式统一;有效性检查则包含长度检查、值域检查(如数值范围、文本格式、日期时间格式及区间、枚举值等)、常用算法检查、自定义正则检查、自定义 SQL 检查等,全方位验证数据的有效性,满足多样化的数据质量管控需求。

(2)质量检查方案:针对不同业务模块及数据转换环节对质量检查的对象、目标、责任人要求各异,模块支持创建多个相互独立的质量检查方案。每个方案均可灵活配置不同的权限与规则,确保检查工作精准适配业务场景。用户可自由进行方案的增加、修改、删除操作,同时支持方案调度管理与执行记录查看,方便追溯方案执行情况。支持系统自动生成质量检测报告,直观呈现数据质量状况,为后续优化提供数据依据。

(3)质检方案及调度:支持新增方案,选择数据源,选择方案执行的方式,单次执行还是周期调度。

配置质检对象表,并为质检字段单个或批量拖拉式配置对应的质检规则。

4)数据质量执行记录及报告:查询质量检查方案的执行结果记录,支持查看方案每次执行的质检报告,日志及问题数据,支持查看执行日志

支持可随时查询执行记录,详细查看每次执行的质检报告、日志及问题数据。通过执行日志,能够清晰追溯数据质量检查的全过程,快速定位问题环节。

支持查看、导出质检报告,以及查看、导出异常数据,并将异常数据精准定位到具体字段,便于用户针对性地进行数据修正与优化。

数据质量分析:对检查结果进行深度挖掘,从趋势、同比、环比等多个维度展开综合性分析,直观呈现数据质量的变化趋势与发展态势。通过数据分析,用户能够及时发现数据质量潜在问题,提前制定改进策略,持续提升数据质量,推动数据资源的良性发展。

5)部门质检报告:支持一键生成以学校组织部门的维度,针对各科室工作涉及业务和数据的问题,数据的UC矩阵,数据治理解决的建议,并针对本部门的数据整改总结。

1.1.8主数据管理

主数据管理模块围绕数据中心的核心数据资产展开,提供全流程管理服务,涵盖数据操作日志记录、分析、归档以及 excel 数据上传等功能,有效保障数据安全、提升数据管理效率。

1)数据查询:支持以数据集和数据库两种模式查看主数据信息。条件过滤和相关数据查看,全方位了解主数据详情信息。

2)数据管理:支持对数据进行细致的授权管理,仅满足授权条件的用户,才可对主数据执行增加、删除、修改、查询操作。

授权支持全量授权和部分授权,部分授权支持按字段和条件过滤。

同时,系统对每一次数据操作均进行完整记录,形成详尽的数据操作日志。通过日志,用户能够清晰查看主数据的历史变化情况,实现数据操作的全程追溯,确保数据管理的规范性与安全性。

3)数据上传:针对没有业务系统、老旧信息系统以及信息化水平相对较弱部门的特殊场景,主数据管理模块支持 excel 数据上传。用户可根据实际需求配置专属的 excel 模板,通过该模板便捷地上传数据,有效解决特殊场景下的数据录入难题,实现数据的快速整合与管理。

4)数据归档:提供全面的主数据归档管理功能,包含归档配置、归档记录、归档数据查询三大核心功能。

支持对主数据进行周期性归档设置,用户可根据业务需求灵活定义归档周期。此外,用户还能查看周期归档的各批次数据详情,方便对历史数据进行深度分析与管理,优化数据存储结构,提升数据利用价值

1.1.9指标管理

1)在指标域管理方面,支持将业务过程相近或属性相似的内容整合为一个整体,构建起对象分析和主题分析的坚实基础。同时,支持父子级指标域目录的全生命周期管理,涵盖新增、编辑、删除、查看等操作,方便用户根据业务需求灵活调整指标域结构,确保指标体系的有序性和可扩展性。

2)指标管理:对于原子指标、衍生指标、派生指标及复合指标,支持全流程操作。

原子指标作为最小指标单元,具备高度复用性,可被其他类型指标引用,保证数据计算的一致性和准确性。

衍生指标、派生指标和复合指标则基于原子指标,通过不同的计算逻辑和组合方式,满足多样化的业务分析需求。

复合指标支持可视化拖拽配置与自定义SQL两种新增方式,并可实时试计算,即时验证指标配置的正确性,大幅提升指标创建效率和准确性。

在基础构成单元管理上,支持修饰词和时间周期的新增、编辑、删除与查看操作,为指标赋予更丰富的维度和更精准的时间定义,使指标描述更加清晰、分析更加灵活。

(4)主题表管理:主题表管理功能进一步整合指标资源,能够将多个不同类型的指标汇聚成主题表。主题表分为横表和纵表两种类型,对应不同的主题表模型,满足多样化的数据存储和分析需求。同时,主题表支持全量固化和增量固化两种方式,确保数据的完整性和时效性。

支持创建主题表,按照第一步基础信息配置、第二步指标选择配置、第三步调度策略配置的步骤配置主题表,创建主题表后支持立即执行查看固化记录,查看固化表数据。

4)指标标准配置:支持用户灵活设置指标的系数、合格条件、超限条件和预警条件。当指标数值超出预设阈值时,系统将自动发送邮件通知指定责任人,实现风险的及时预警和快速响应。

5)支持标杆校指标监测和智慧大脑指标监测,可对指标值及测算结果进行偏差分析预警,助力用户发现数据异常,优化业务决策。并支持明细数据和数据看板。

6)指标预警支持按指标域、指标类型、测算结果、指标名称和时间范围进行过滤查询。时间范围提供今天、近三天、近一周及自定义等多种选择,满足不同场景的查询需求。查询结果可通过明细数据和数据看板两种方式展示,数据看板直观呈现超限top5、不合格未超限top5以及预警情况趋势,帮助用户快速掌握指标动态,把握业务关键信息。

1.1.10数据共享

数据共享围绕数据中心的数据资源库,支持通过多种协议的共享API,API审核,安全访问控制,可靠的数据传输,实现各应用与数据中心之间的数据共享服务。

(1)共享访问管理

通过多种协议的共享 API 支持,结合严格的 API 审核机制,确保数据共享的规范性与合法性。同时,围绕安全访问控制,从多个维度保障数据安全:

支持对 API 接口进行时间段设置,无需手动收回接口,实现自动化管理;

支持通过 IP 限制、返回数据量控制、调用频率控制等手段,有效防止非法访问与数据滥用;

支持采用数据加密与脱敏技术,灵活配置共享字段的数据加密与脱敏操作,至少支持全值替换、掩码屏蔽、随机化、偏移取整、特殊保留、特殊遮盖六种脱敏类型,以及 DES 和 AES 两种加密算法,从源头杜绝数据泄露风险。

支持图形化拖拽设计的数据共享工具,用户只需通过简单的鼠标拖拽与配置,即可快速生成 API 接口,无需编写代码,大幅降低了数据共享的技术门槛,显著提升了数据共享服务的创建效率。

(2)共享访问申请

共享访问申请功能则为数据共享搭建了规范有序的流程通道。用户可通过共享访问申请界面,便捷浏览数据中心公布的 API 数据集,并提交 API 申请。申请提交后,系统将启动严格的审核流程,审核通过后,用户方能获得 API 调用权限,这一机制既保障了数据的合理使用,又确保了数据共享的可控性,让数据在安全合规的框架下实现高效流转与价值最大化。

1.1.11系统管理

提供数据中心的组织结构、用户、角色权限设置、用户权限分配、系统数据字典管理、菜单配置、日志管理等管理。