Files

T

hiderfong 474e7aa543 docs: 添加DataPointer产品白皮书与功能架构图

- 编写完整功能介绍白皮书（含产品概述、功能详解、技术架构、部署方案）
- 绘制总体功能架构图、数据流向图、安全闭环图、部署架构图、核心业务流程图

2026-04-25 09:34:41 +08:00

13 KiB

Raw Blame History

DataPointer 数据安全分级及风险管理平台

产品白皮书

版本：v1.0
日期：2026-04-25
定位：财产保险行业数据分级分类管理与数据安全治理平台

一、产品概述

DataPointer 是一款面向财产保险行业的数据安全分级分类及风险管理平台。平台以《数据安全法》《个人信息保护法》及保险行业监管要求为合规基线，通过自动化的元数据采集、智能分类分级引擎、多维风险量化模型与全链路数据安全能力，帮助保险企业实现数据资产的"可见、可管、可控"。

1.1 核心价值

价值维度	具体收益
合规达标	对标等保 2.0、PIPL、GDPR 及银保监会数据监管要求，自动生成合规差距报告
资产可视化	多数据源统一纳管，库/表/字段层级血缘与敏感分布一目了然
智能分类	规则引擎 + ML 模型双引擎驱动，万级字段分钟级自动定级，准确率 ≥ 70%
风险量化	基于暴露面与保护措施的动态风险评分，敏感数据变动实时感知
安全闭环	脱敏、水印、告警、工单四位一体，实现数据安全治理闭环

1.2 适用场景

数据分类分级治理：核心业务系统、客户信息系统、财务系统的敏感数据梳理与定级
监管合规检查：等保测评、个人信息保护审计、监管报送前的数据合规自检
数据出境评估：识别出境数据中的敏感与核心数据，评估保护强度
API 敏感接口治理：扫描 Swagger/OpenAPI，识别暴露敏感字段的接口
非结构化文件管控：Word、Excel、PDF 合同与保单中的敏感信息识别

二、功能架构总览

DataPointer 采用"四层两域"的功能架构：

四层：数据采集层 → 核心引擎层 → 安全能力层 → 业务应用层
两域：管理域（配置、审批、审计）+ 运营域（分类、脱敏、风控）

flowchart TB
    subgraph 展示层["展示层"]
        A1[数据资产大屏]
        A2[分类分级工作台]
        A3[安全风险驾驶舱]
        A4[合规报告中心]
    end

    subgraph 业务应用层["业务应用层"]
        B1[数据源管理]
        B2[分类项目管理]
        B3[标注任务中心]
        B4[报表与报告]
        B5[告警工单]
        B6[API资产]
    end

    subgraph 安全能力层["安全能力层"]
        C1[数据脱敏]
        C2[数字水印]
        C3[合规检查]
        C4[风险评分]
        C5[血缘分析]
    end

    subgraph 核心引擎层["核心引擎层"]
        D1[元数据采集引擎]
        D2[规则分类引擎]
        D3[ML辅助分类]
        D4[Schema变更感知]
        D5[非结构化识别]
    end

    subgraph 数据采集层["数据采集层"]
        E1[(PostgreSQL)]
        E2[(MySQL)]
        E3[(Oracle)]
        E4[(SQLServer)]
        E5[(达梦DM)]
        E6[MinIO文件存储]
        E7[Swagger/OpenAPI]
    end

    展示层 --> 业务应用层
    业务应用层 --> 安全能力层
    安全能力层 --> 核心引擎层
    核心引擎层 --> 数据采集层

三、功能模块详解

3.1 数据资产管理

数据源管理

支持 PostgreSQL、MySQL、Oracle、SQLServer、达梦（DM）等多类型数据源注册
数据源连接密码采用 Fernet 加密存储，密钥外部注入，重启后可解密
连接可用性一键测试，数据源状态实时监控（活跃/异常）

元数据采集

自动采集库、表、字段三级元数据，包含数据类型、长度、注释、样本数据
支持增量采集：基于 checksum 与 last_scanned_at 仅同步变更，减少数据库压力
支持全量手动同步与定时自动同步两种模式

Schema 变更追踪

增量采集时自动比对历史元数据，识别新增/删除/修改字段
生成 Schema 变更日志，敏感字段新增时自动标红告警
支持按数据源、变更类型（ADD/MODIFY/DROP）筛选查询

3.2 数据分类分级

分类标准管理

内置财产保险行业分类模板：客户信息、保单信息、理赔信息、财务信息、渠道信息、监管报送、内部系统
五级安全等级：公开级(L1)、内部级(L2)、秘密级(L3)、机密级(L4)、核心级(L5)
支持自定义分类目录与颜色标识

识别规则引擎

规则类型：正则匹配、关键词包含、枚举值、语义相似度（cosine similarity ≥ 0.75）
规则绑定分类 + 等级，支持多规则组合命中
规则热更新，无需重启即可生效

自动分类引擎

基于规则的自动打标：字段名、注释、样本数据多维度匹配
Celery 异步执行，万级字段分类不阻塞 HTTP 接口
实时进度反馈：前端进度条 + 后端 scan_progress 轮询

ML 辅助分类

基于字段 name / comment / sample_data 的 TF-IDF 特征工程
支持 LogisticRegression / RandomForest 模型训练
提供 ml-suggest 接口，前端一键采纳推荐标签与置信度
模型版本化管理（MLModelVersion），支持回滚与 A/B 对比

人工标注与审核

项目化任务分配：创建任务 → 指派打标员 → 提交结果 → 审核员复核
支持单人标注、多人交叉标注两种模式
标注结果状态流转：auto → manual → reviewed → published

3.3 数据安全保护

数据静态脱敏

脱敏策略：掩码(mask)、截断(truncate)、哈希(hash)、泛化(generalize)、替换(replace)
策略绑定敏感等级与分类，支持批量策略应用
脱敏预览：左右对比原文与脱敏后效果，确认后导出

数字水印溯源

文本水印：采用零宽空格（Zero-Width Spaces）嵌入用户 ID
水印不可见、不影响可读性，复制粘贴后仍可提取
溯源 API 提取水印信息，精准定位数据泄露源头
WatermarkLog 记录每次导出行为，形成审计链条

3.4 风险管理与合规

风险评分模型

评分公式：RiskScore = Σ(Li × exposure × (1 - protection_rate))
四级聚合：全局风险 → 数据源风险 → 数据库风险 → 表级风险
风险 TOP N 排行，Dashboard 实时展示风险趋势
Celery Beat 每日自动重算，敏感字段未脱敏时分数自动上升

合规检查引擎

内置规则库：等保 2.0、PIPL（个人信息保护法）、GDPR
可插拔检查器基类，支持自定义合规规则
自动扫描生成问题清单：L5 未脱敏、缺少分类、Schema 变更未审批等
支持问题导出为合规差距分析报告

智能告警与工单

告警规则配置：敏感字段新增数、风险分阈值、Schema 变更类型
告警记录管理：未读/已读/已处理状态流转
一键转工单：告警 → 工单 → 指派 → 处理 → 关闭
工单状态：open → in_progress → resolved，支持处理结论备注

3.5 数据血缘分析

基于 sqlparse 解析 SQL 脚本（ETL、存储过程），提取表级血缘关系
支持 INSERT/CREATE TABLE AS / MERGE 等常见语法
前端 ECharts 关系图展示，支持上下游 3 层展开
血缘记录持久化存储，支持按表名查询全链路影响

3.6 API 资产安全管理

API 资产注册：名称、基础 URL、Swagger 地址、认证方式
自动扫描 Swagger/OpenAPI 文档，解析端点、参数、响应 Schema
规则引擎标记敏感接口：暴露 phone、idCard、bankCard 等字段的接口自动标红
端点级风险等级评估与清单导出

3.7 非结构化数据识别

支持 Word、Excel、PDF、TXT 文件上传
文件存储至 MinIO，解析文本后送入规则引擎
识别结果：匹配规则名、敏感分类、安全等级、文本片段定位
支持重新处理与结果查看

3.8 数据资产仪表盘

核心指标卡

数据源总数、数据表总数、字段总数
已分类字段数、敏感字段数、项目总数

可视化图表

等级分布饼图：L1~L5 字段占比
分类 TOP8 横向柱状图
数据源 × 等级热力矩阵
项目进度甘特图
风险趋势折线图

报告导出

支持 Word、Excel、PDF 三种格式
报告包含：项目概况、等级分布、Top20 敏感清单、合规摘要

四、技术架构

4.1 总体技术栈

flowchart LR
    subgraph 前端["前端层"]
        F1[Vue 3]
        F2[Vite]
        F3[Element Plus]
        F4[ECharts]
        F5[Pinia]
    end

    subgraph 后端["后端层"]
        B1[FastAPI]
        B2[SQLAlchemy 2.0]
        B3[Pydantic v2]
        B4[Celery]
    end

    subgraph 数据层["数据层"]
        D1[(PostgreSQL 16)]
        D2[(Redis 7)]
        D3[MinIO]
    end

    subgraph 算法层["算法层"]
        A1[scikit-learn]
        A2[sqlparse]
        A3[TfidfVectorizer]
    end

    前端 -->|HTTP /api/v1| 后端
    后端 -->|SQL| 数据层
    后端 -->|Task Queue| D2
    后端 -->|Object Storage| D3
    后端 -->|ML / Parsing| 算法层

4.2 后端服务架构

服务	技术	职责
Web API	FastAPI + Uvicorn	RESTful API 服务，JWT 认证
Celery Worker	Celery + Redis	异步分类、ML 训练、风险重算
Celery Beat	Celery + Redis	定时任务调度（风险重算、合规扫描）
Flower	Celery Monitor	任务监控与可视化

4.3 数据模型设计

平台共涉及 31 张业务表，核心实体关系如下：

erDiagram
    DATA_SOURCE ||--o{ META_DATABASE : contains
    META_DATABASE ||--o{ META_TABLE : contains
    META_TABLE ||--o{ META_COLUMN : contains
    CLASSIFICATION_PROJECT ||--o{ CLASSIFICATION_TASK : has
    CLASSIFICATION_PROJECT ||--o{ CLASSIFICATION_RESULT : produces
    META_COLUMN ||--o{ CLASSIFICATION_RESULT : classified_as
    CATEGORY ||--o{ CLASSIFICATION_RESULT : belongs_to
    DATA_LEVEL ||--o{ CLASSIFICATION_RESULT : rated_as
    SYS_USER ||--o{ CLASSIFICATION_TASK : assigned_to
    DATA_SOURCE ||--o{ RISK_ASSESSMENT : assessed
    CLASSIFICATION_RESULT ||--o{ COMPLIANCE_ISSUE : generates
    ALERT_RECORD ||--o{ WORK_ORDER : converts_to
    API_ASSET ||--o{ API_ENDPOINT : has

五、部署方案

5.1 Docker Compose 单机部署（推荐试用）

# 一键启动 7 个服务
services:
  db: postgres:16-alpine
  redis: redis:7-alpine
  minio: minio/minio
  backend: FastAPI + Alembic 自动迁移
  frontend: Vue3 Vite DevServer
  celery_worker: Celery Worker (concurrency=2)
  celery_beat: Celery Beat 定时调度
  flower: Celery 监控面板

5.2 生产环境最低配置

资源	最低规格	推荐规格
CPU	4 核	8 核
内存	8 GB	16 GB
磁盘	100 GB SSD	500 GB SSD
网络	5 Mbps	10 Mbps

5.3 高可用扩展建议

数据库：PostgreSQL 主从 + 连接池（PgBouncer）
缓存/队列：Redis Sentinel 或 Redis Cluster
对象存储：MinIO 分布式集群
应用层：FastAPI 多实例 + Nginx 负载均衡
前端：静态资源托管至 CDN

六、安全设计

6.1 认证与授权

JWT Access Token + Refresh Token 双令牌机制
RBAC 角色权限控制：超级管理员 / 管理员 / 项目负责人 / 打标员 / 审核员 / 访客
数据隔离：非管理员仅可查看自己创建/参与的项目与任务

6.2 数据安全

数据源密码 Fernet 加密存储，密钥外部注入（DB_ENCRYPTION_KEY）
数据库连接 SSL 支持
操作审计日志：记录用户、模块、动作、IP、耗时

6.3 部署安全

.env 环境变量隔离敏感配置，不进入代码仓库
Docker 镜像最小化（python:3.12-slim、node:20-alpine）
CORS 白名单限制前端域

七、项目里程碑与规划

阶段	周期	核心目标	关键交付
第一阶段	4 周	核心引擎加固 + 智能化	密码加密修复、Celery 异步分类、ML 辅助原型、语义相似度、增量采集
第二阶段	5 周	安全能力补齐 + 体验升级	静态脱敏、数字水印、Excel/PDF 报告、达梦驱动、非结构化识别、Schema 变更
第三阶段	6 周	风险管理 + 合规 + 血缘	风险评分、合规引擎、血缘分析、告警工单、API 资产扫描、暗黑模式

总计约 89 人天，双人并行可压缩至 2 个月。

八、总结

DataPointer 以"数据分级分类"为核心切入点，构建了覆盖数据采集 → 智能分类 → 安全保护 → 风险合规 → 血缘追溯的全链路数据安全治理平台。平台采用现代化的前后端技术栈，支持容器化一键部署，具备高度的可扩展性与可定制性，能够满足财产保险企业在数字化转型过程中的数据安全合规需求。

DataPointer 产品白皮书 v1.0 | 由 DataPointer 项目组编制

13 KiB Raw Blame History Unescape Escape