分析一下多方联合计算中的数据泄露场景

假设某一天,某地社保局接到了教育局的求助, 希望提供社保表,和教育局自身的毕业生信息表 进行联合分析, 以得到2024年各学校的毕业生实力。

这时候社保局犯了难,两会会议里刚提过隐私保护相关的议题:

隐私频频泄露,数据亟需监管与治理
数据监管与治理尤为重要。当下数据存在被滥用的情况,一些互联网平台旗下子公司之间,数据可以无障碍共享,这实际上侵犯了个人隐私,也容易造成风险的扩散。

——金融科技观察者、私募基金管理人毕研广

那么,在教育局和社保局的这次分析合作中,社保局怎么确认,自己的哪些情况,可能存在泄露, 哪些情况不算泄露呢?

这时,我们可以引入联邦分析字段分类的概念, 先对表字段分个类,再根据联合计算的结果,来判断字段是否存在确认是否泄露了数据。

联邦分析数据字段分类

对于联邦sql分析而言, 每个字段都可以按照业务含义,进行分类。
以社保局和教育局为例,我们可以先思考下会用到哪些东西:

  • 当双方进行联合计算时, 一定存在可以进行关联的身份证号码, 这样教育局就可以把社保局中属于毕业生的记录给找出来,而不会牵涉到其他无关者的数据。
  • 既然要计算, 一定会用到敏感数据, 例如教育局肯定想要社保表里的社保缴纳金额,或者银行表的每月还款金额, 进行加减乘除得到分数。
  • 也会有一些用来做分组或者条件判断的名词,例如学校名称、 社保缴纳类型…加语句可以根据社保类型=城镇职工,来过滤掉非城镇缴纳社保的学生。

那么业务场景可以概括为: 使用身份证做连接—>使用社保类型做分组或者条件过滤->使用敏感数据做统计和计算

我们结合数据建模的概念,可以把字段分成唯一标识、度量、维度三种类型。

唯一标识

用于标识某个事物实体身份的字段。
例如身份证、工号、公司代码等。

度量

指会参与统计、计算的度量数据,且都是敏感的。
例如薪水、纳税、用电量、成交量

维度

指一般不参与数值聚合和计算的分类数据
例如等级(13-20)、公司类型(上市、不上市)、城市名称等。

其他字段

名字、地址等个人关联信息,既不会用于数据关联, 也不会参加数据计算,也不能进行整体分类,因此无必要的情况下, 不建议开放这些字段给计算参与方。

可能泄露的场景

1.唯一标识全集泄露

例如社保表的id全集如果泄露了, 那么教育局就可以知道总共有哪些人交过社保, 从而推出哪些毕业生没交过社保, 也许那个学生就被母校催着就业了。 因此是否交过社保, 理应也是学生们的个人隐私
实际原因在于社保表的id全集泄露,导致教育局可以分析谁在表中,谁不在表中。

2.度量数据具体分布泄露

具体的度量数据, 是一种数值波动比较大的数字资产。
例如单个社保金额10000, 可能没什么太大参考意义

但如果是
10000、11000、10101、8000… 这一大批数字, 则就会泄露社保数据的实际分布情况。
因此度量数据在表中的全集是不应当泄露的。
正常要让这批数据进行求和、求平均, 或者和多方表进行四则运算, 得到非原值的集合。

3.实体和度量数据一起泄露

前面提过,如果只是单独抽出1个社保金额10000, 没什么太大影响。
但如果能被外界看到 “身份证xxx, 社保金额10000” 这样的记录,那么就泄露了xxx这个人的实际社保金额。
因此如果度量数据泄露了很少的值, 但是每个值都有对应的唯一标识,那么这就属于隐私数据泄露。

4.标识和维度一起泄露

维度是已知的数据, 例如社保类型,只有农村居民、 城镇职工、城镇居民三类, 泄露了全集根本不影响什么。
但是如果身份证和社保类型一起出现,那么就泄露了每个人的实际缴纳类型。
换个更实际点的例子
疾病名称,总共就那么多疾病, 但如果能通过和医院的联合计算, 得到每个人当前所患疾病,这就会引发很多问题。
维度应当以不和id绑定的情况下出现, 作为分组的键值,或者作为条件的过滤


因此对参与联合分析计算的数据提供者来说,应当重点关注发起的任务是否会暴露这些信息, 以及计算系统能否通过规则和算法来检测、规避泄露风险。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/781436.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C语言下的文件详解

主要内容 文件概述文件指针文件的打开与关闭文件的读写 文件 把输入和输出的数据以文件的形式保存在计算机的外存储器上,可以确保数据能随时使用,避免反复输入和读取数据 文件概述 文件是指一组相关数据的有序集合 文件是存储数据的基本单位&#…

# mysql 中文乱码问题分析

mysql 中文乱码问题分析 一、问题分析: MySQL 中文乱码通常是因为字符集设置不正确导致的。MySQL 有多种字符集,如 latin1、utf8、utf8mb4 等,如果在创建数据库、数据表或者字段时没有指定正确的字符集,或者在插入数据时使用了与…

关于Java异常机制及finally关键字的详解

异常机制(Exception) 软件程序在运行过程中,非常可能遇到异常问题。常见的异常: 1、用户输入错误 2、设备错误 3、硬件问题,例如打印机关掉、服务器问题 4、物理限制:磁盘满了 Java是采用面向对象的方式来处理异常的。 处理过程…

哈希表——C语言

哈希表(Hash Table)是一种高效的数据结构,能够在平均情况下实现常数时间的查找、插入和删除操作。 哈希表的核心是哈希函数,哈希函数是一个将输入数据(通常称为“键”或“key”)转换为固定长度的整数的函数…

使用vue3-treeselect问题

1.当vue3-treeselect是单选时,使用watch监听绑定value,无法监听到值清空 对照后将:value改为v-model,如图 2.使用vue3-treeselect全部清空按钮如何置空select的值,使用watch监听 多选:pageInfo.officeName(val) {// …

【Linux进阶】文件系统6——理解文件操作

目录 1.文件的读取 1.1.目录 1.2.文件 1.3.目录树读取 1.4.文件系统大小与磁盘读取性能 2.增添文件 2.1.数据的不一致(Inconsistent)状态 2.2.日志式文件系统(Journaling filesystem) 3.Linux文件系统的运行 4、文件的删…

Java--方法重写

1.方法的重写首先需要有继承关系,且为子类重写父类的方法 2.方法名必须相同 3.参数列表必须相同 4.修饰符的范围可以扩大但不能缩小,public>protected>default>private,即父类的属性可以从private改为public,但不能反过来 5.抛出…

python爬虫入门(四)之Beautiful Soup库

一、什么是Beautiful Soup库 1、Beautiful Soup库是用来做HTML解析的库 Beautiful Soup把看起来复杂的HTML内容,解析成树状结构,让搜索和修改HTML结构变得更容易 2、第三方库,先安装 终端输入pip install bs4 from bs4 import Beautiful…

Cyber Weekly #14:WAIC 2024

赛博新闻 1、WAIC2024开幕:一半机器人,一半大模型 7月4日,AI界春晚——2024世界人工智能大会(WAIC 2024)在上海开幕,大会展示了500家企业的1500项展品,突出了机器人和大模型技术。国产机器人和…

【排序算法】—— 快速排序

快速排序的原理是交换排序,其中qsort函数用的排序原理就是快速排序,它是一种效率较高的不稳定函数,时间复杂度为O(N*longN),接下来就来学习一下快速排序。 一、快速排序思路 1.整体思路 以升序排序为例: (1)、首先随…

学生管理系统(通过顺序表,获取连续堆区空间实现)

将学生的信息,以顺序表的方式存储(堆区),并且实现封装函数 : 1】顺序表的创建, 2】判满、 3】判空、 4】往顺序表里增加学生信息、 5】遍历学生信息 6】任意位置插入学生信息 7】任意位置删除学生信…

【大模型LLM面试合集】大语言模型基础_llm概念

1.llm概念 1.目前 主流的开源模型体系 有哪些? 目前主流的开源LLM(语言模型)模型体系包括以下几个: GPT(Generative Pre-trained Transformer)系列:由OpenAI发布的一系列基于Transformer架构…

对话大模型Prompt是否需要礼貌点?

大模型相关目录 大模型,包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容 从0起步,扬帆起航。 基于Dify的QA数据集构建(附代码)Qwen-2-7B和GLM-4-9B&#x…

Android OpenGL ES 离屏幕渲染1——EGL环境的创建,以及基础概念的理解

创建EGL上下文、配置EGL环境、创建EGL DISPLAY 什么是EGL: 由于OpenGL ES并不负责窗口管理以及上下文管理,该职责由各个平台自行完成;在Android平台下OpenGL ES的上下文环境是依赖EGL的API进行搭建的。 对于EGL这个框架,谷歌已经提…

WAWA鱼曲折的大学四年回忆录

声明:本文内容纯属个人主观臆断,如与事实不符,请参考事实 前言: 早想写一下大学四年的总结了,但总是感觉无从下手,不知道从哪里开始写,通过这篇文章主要想做一个记录,并从现在的认…

那些年背过的面试题——MySQL篇

本文是技术人面试系列 MySQL 篇,面试中关于 MySQL 都需要了解哪些基础?一文带你详细了解,欢迎收藏! WhyMysql? NoSQL 数据库四大家族 列存储 Hbase K-V 存储 Redis 图像存储 Neo4j 文档存储 MongoDB 云存储 OSS …

【Gin】项目搭建 一

环境准备 首先确保自己电脑安装了Golang 开始项目 1、初始化项目 mkdir gin-hello; # 创建文件夹 cd gin-hello; # 需要到刚创建的文件夹里操作 go mod init goserver; # 初始化项目,项目名称:goserver go get -u github.com/gin-gonic/gin; # 下载…

C++入门7——string类详解

目录 1.什么是string类? 2.string类对象的常见构造 2.1 string(); 2.2 string (const char* s); 2.3 string (const string& str); 2.4 string (const string& str, size_t pos, size_t len npos); 2.5 string (const char* s, size_t n); 2.7 验证…

模块一SpringBoot(一)

maven记得配置本地路径和镜像 IJ搭建 SpringIntiallizer--》将https://start.spring.io改成https://start.aliyun.com/ 项目结构 Spring有默认配置, application.properties会覆盖默认信息: 如覆盖端口号server.port8888

一个最简单的comsol斜坡稳定性分析例子——详细步骤

一个最简单的comsol斜坡稳定性分析例子——详细步骤 标准模型例子—详细步骤 线弹性模型下的地应力平衡预应力与预应变、土壤塑性和安全系数求解的辅助扫描