脱敏 数据脱敏的原理是什么?数据脱敏遵循哪几条原则?

编辑:
发布时间: 2021-02-04 22:28:10
分享:

数据脱敏,又称数据隐私或数据变形,是在给定的规则和策略下对敏感数据进行转换和修改的技术机制,可以在很大程度上解决不可信环境下敏感数据的使用问题。根据数据保护标准和脱敏策略,对业务数据中的敏感信息进行自动变形,实现敏感信息的隐藏。

数据脱敏的原理是什么?

数据脱敏根据需要转换敏感信息内容,同时保留数据的原始特征。只有授权的管理员或用户才能通过特定的应用程序和工具访问数据的真正价值,从而降低共享和移动这些重要数据的风险。数据脱敏在不降低安全性的情况下,扩大了原始数据的使用范围和共享对象,是大数据环境下最有效的敏感数据保护方法。

任何涉及敏感信息的行业都有对数据脱敏的天然需求。其中,金融、政府和医疗行业首当其冲。相关单位在应用开发、测试、培训等活动中普遍使用真实数据,导致暴露过程中数据泄露风险严重。借助数据脱敏,企业可以根据数据使用目标定义准确灵活的脱敏策略,根据用户的权限级别以不同的方式脱敏不同类型的数据,从而实现跨工具、跨应用、跨环境的快速一致的访问限制。

数据脱敏遵循什么原则?

(1)数据脱敏算法一般应该是不可逆的,要防止使用不敏感的数据来推断和重构敏感的原始数据。但是,在一些特定的场合,也需要对可恢复数据进行脱敏。

(2)脱敏后的数据应该具有原始数据的大部分特征,因为它们仍将用于开发或测试。数字分布范围和指定格式的数据(如信用卡号前四位数字指银行名称)脱敏后应与原始信息相似;姓名、地址等字段要符合基本的语言认知,而不是无意义的字符串。在要求较高的情况下,还要求具有与原始数据相同的频率分布和场唯一性。

(3)应保持数据的参照完整性。如果脱敏字段是数据表的主键,则相关引用记录必须同步更改。

(4)对所有可能产生敏感数据的非敏感字段进行脱敏。例如,为了隐藏学生成绩单中姓名和成绩的对应关系,将“姓名”转换为敏感字段。但如果能凭借一个“籍贯”的唯一性来推导出名字,那就需要把“籍贯”一起转化。

(5)脱敏过程应该是自动的、可重复的。因为数据是不断变化的,所以期望一劳永逸地降低所需数据的敏感度是不现实的。生产环境中的数据生成速度极快,脱敏过程必须在规则的指导下实现自动化,才能满足可用性要求;另一种意义上的重复性是指脱敏结果的稳定性。在某些场景下,同一领域脱敏的计算结果每轮相同或不同,以满足数据用户可测试性、模型正确性、安全性等指标的要求。

相关阅读
热门精选
皮肤 孕妇