二、数据安全风险评估标准( 二 )


②.脱敏/匿名化处理后的隐私风险评估
评估脱敏/匿名化处理后的剩余风险(总体风险、风险分布),是否在可控范围内 。脱敏数据后的高危/低危识别路径和极高危方向的识别路径的检测,感知风险变化 。
1.2 前期处理
识别数据集中的直接标识符、准标识符、敏感信息和非敏感信息类别 。
注:下面的数据集均是指在准标识符属性对应的列进行 。
2、三种攻击场景评估
攻击场景
描述
检察官攻击
攻击者知道某个特定人员在公开集中发生的重标识攻击,他发起的攻击是指向特定目标的,例如同学朋友了解他的同学是受访对象
采访人员攻击
在此场景中,攻击者一般来说拥有一个庞大的身份数据库,但他并不知道数据库的人员是否在公开的数据集中,他通过多次炫耀式的攻击证明某人可以被重新识别 。在这种情况下,攻击者的目标常常是使得公开数据库的组织感到难堪或者名誉扫地
营销者攻击
类似采访人员攻击场景,但攻击者的目标是使得公开数据库和身份数据库进行关联下实现的重识别攻击 。尽量还原出数据库的省份,实现精准对身份数据库的人进行其他维度的刻画,但不要求证明重识别结果的正确性,只需要保证较高的重识别概率
检查官攻击
【二、数据安全风险评估标准】经检察官攻击模型、采访人员攻击模型和营销者攻击模型攻击后存在风险的记录比例,即存在风险的数据条数率:
其中,n
为记录的个数,fj
为第j
个等价类的大小,θj=1fj
,当θj
大于阈值τ
时,函数I
的值为1;当θj
小于等于阈值τ
时,函数I
的值为0 。

二、数据安全风险评估标准

文章插图
最大风险Rmax
和平均风险Ravg
为:
2. 采访人员攻击
经采访人员攻击模型攻击后存在风险的记录比例jRa
其中,Fj
为取样数据集里面每个等价类的记录与原数据集的记录相同的记录数 。
最大风险jRmax
和平均风险jRavg
为,其中|J|
为数据集中等价类的个数:
3. 营销者攻击
经营销者攻击模型攻击后存在平均风险mRavg
实现了三种τ
值供用户选择,分别为0.05(高度侵犯隐私)、0.075(中度侵犯隐私)、0.1(低度侵犯隐私),从而可以灵活地适应各种用户的隐私需求 。
3、NRE风险指标( Risk,NRE)
3.1 基本功能
信息熵蕴含丰富的物理含义,通过度量数据的统计分布,可反映观测者获得的信息量,越随机对应获得的信息量越大;对应到风险评估模型中,越趋向所有值都是唯一的分布,攻击者获得的信息越大,风险值越大;此外信息熵具有叠加性,可更好地刻画多个风险的形成的总体风险值 。
性质:当所有数据集的所有记录都是唯一时,信息熵取最大值
3.2 高危/低危识别路径的检测算法
对于一份数据集,可能存在使用需求,比如使用两列年龄和性别进行统计分析;使用3个属性进行统计分析,比如性别,地区,职业等;哪些属性组合导致的隐私风险较高,哪些组合的隐私风险较低 。通过检测算法检测出所有组合可能的风险分类:高危、低危 。进而在数据集处理前通过风险分析制定脱敏/匿名化策略,或者在数据集处理后感知风险的变化
3.3 极高危方向的识别路径评估/检测算法
发现和检测数据集的不同属性组合,风险增量最大方向那条识别路径(属性组合),给出攻击者结合拥有的身份数据库最容易识别的方向 。