希赛小编为考生整理了2022年信息安全工程师考试知识点(二十八):隐私保护,希望对大家备考信息安全工程师考试会有帮助。
隐私保护
【考法分析】
本知识点主要是隐私保护相关内容的考查。
【要点分析】
1.从隐私所有者的角度,隐私可以分为以下三类:① 个人隐私;② 通信内容隐私;③ 行为隐私。
2.隐私泄露方式:① 互联网服务;② 智能终端;③ 黑客攻击;④ 管理者监听。
3.从数据挖掘的角度,目前的隐私保护技术主要可以分为三类:
① 基于数据失真的隐私保护技术;
② 基于数据加密的隐私保护技术;
③ 基于数据匿名化的隐私保护技术。
4.数据失真技术通过扰动原始数据来实现隐私保护。基于数据失真的技术通过添加噪音等方法,使敏感数据失真但同时保持某些数据或数据属性不变,仍然可以保持某些统计方面的性质。
① 随机化:数据随机化即是对原始数据加入随机噪声,然后发布扰动后数据的方法。
② 阻塞与凝聚:随机化技术一个无法避免的缺点是:针对不同的应用都需要设计特定的算法对转换后的数据进行处理,因为所有的应用都需要重建数据的分布。鉴于随机化技术存在的这个缺陷,研究人员提出了凝聚技术:它将原始数据记录分成组,每一组内存储着由k 条记录产生的统计信息,包捂每个属性的均值、协方差等。这样,只要是采用凝聚技术处理的数据,都可以用通用的重构算法进行处理。
③ 差分隐私保护:差分隐私保护可以保证,在数据集中添加或删除一条数据不会影响到查询输出结果,因此即使在最坏情况下,攻击者己知除一条记录之外的所有敏感数据,仍可以保证这一条记录的敏感信息不会被泄露。
5.基于数据加密的隐私保护技术所针对的数据对象往往是分布式的。在分布式环境下,根据应用的不同,数据会有不同的存储模式,站点也会有不雨的可信度及相应行为。
6.分布式应用普遍采用两种模式存储数据:垂直划分的数据模式和水平划分的数据模式。垂直划分数据是指分布式环境中每个站点只存储部分属性的数据,所有站点存锚的数据不重复;水平划分数据是将数据记录存储到分布式环境中的多个站点,所有站点存储的数据不重复。
7.对分布式环境下的站点(参与者),根据其行为,可分为:① 准诚信攻击者;② 恶意攻击者。分布式环境下的四个常见应用:安全多方计算、分布式匿名化、分布式关联规则和分布式聚类入手,介绍相应的隐私保护技术。当前,解决上述问题的策略是假设有可信任的服务提供者或是假设存在可信任的第三方。大家把各自的输入秘密地交给这个可信方,由可信方来计算出结果,然后将相应的结果返回给参与计算的各方。但是在目前多变和充满恶意的环境中,这是极具风险的,很难找到这样的可信第二方。
8.安全多方计算( SMC) ,是解决→组互不信任的参与方之间保护隐私的协同计算问题。
现有的许多密码工具都是安全多方计算的基础,SMC 的关键技术涉及到秘密分享与可验证秘密分享、门限密码学、零知识证明等多方面的内容。
① 秘密分享是一种分发、保存和恢复秘密的方法,是实现安全多方计算的一种重要工具。早期的方案中均假设所有参与方是诚实的,即秘密分享者Pi(l 《i《n) 所提供的秘密分片都是正确的,因此不能够抵抗恶意攻击者的欺骗行为。能够对分发的秘密分片的正确性进行验证实现了可验证秘密分享(Verifiable Secret Sharing) 。如果系统中任何成员(包括外部成员)都可以验证秘密分片Si 的正确性,则称可公开验证秘密分享。
② 同态公钥密码体制:在SMC 技术所采用的各种密码算法中,一个重要的密码体制是具有同态性质的公钥密码体制。
③ 零知识证明:零知识证明是密码学中的一个基本方法,目的是使证明者P 向验证者V 证明自己拥有某个秘密,同时P 又不会向V 泄露该秘密的任何其他有用的信息。
④ 混合网协议:混合网(Mixnets/Mix Network) 是实现匿名发送的基本密码协议。
混合网由服务网的集合构成,原始信息输入混合同,通过多次秘密置换后再输出,隐藏了输出消息与发送方的关系,实现匿名消息发送。
9.在分布式环境下,数据匿名化的重点问题是:如何在通信时既能保证站点数据隐私不泄露,又可以收集得到足够的信息来满足数据挖掘规则的要求,从而使实现的数据匿名保护的利用率尽量高。
10.关联规则挖掘就是从大量的数据中挖掘出描述数据项之间相互联系的有价值的知识。关联规则挖掘可以发现存在于数据库中的项自或属性间的有意义的关系,这些关系是事先未知的且隐藏的,也就是说不能通过数据库的逻辑操作(如表的联接)或统计的方法得出。
① 水平分布下关联规则挖掘的隐私保护算法:数据水平分布的关联规则挖掘的目的是寻找全局关联规则。
② 垂直分布下关联规则挖掘的隐私保护算法:数据垂直分布下的关联规则挖掘的关键在于项集中的项分布在不同站点,需要在这样的情况下计算项集的支持度。
在数据垂直划分的分布式环境中,需要解决的问题是:如何利用分布在不同站点的数据计算项集(item set)计数,找出支持度大于阙值的频繁项集。
11.聚类是对记录进行分组,把相似的记录分在闰一个聚簇里,主要是使得属于同一聚簇的个体的差异尽可能小,而个体差异在不同聚簇之间尽可能大。
12.数据匿名化一般采用两种基本操作,一种是抑制(Suppression) ,即不发布某些数据项:另一种是泛化(Generalization) ,即对数据进行更概括、抽象的描述。
13.数据匿名化所处理的原始数据,如医疗数据、统计数据等,一般为数据表形式;几种常见的针对匿名化模型的攻击方式:链接攻击、同质攻击、相似性攻击、背景知识攻击。
链接攻击:某些数据集存在其自身的安全性,即孤立情况下不会泄露任何隐私信息,但是当恶意攻击者利用其他存在属性重叠的数据集进行链接操作,便可能识别出特定的个体,从而获取该个体的隐私信息。
同质攻击:当通过链接攻击仍然无法确认个体,但是却存在个体对应的多条记录拥有同一个敏感隐私信息,从而造成隐私的泄露,称这一过程为同质攻击。
相似性攻击:由于敏感信患往往存在敏感度类似的情况,攻击者虽然无法确定个体,但如果个体对应的多条记录拥有相似敏感信息,便能够推测出个体的大概隐私情况。
背景知识攻击:如果攻击者掌握了某个体的某些具体信息,通过链接攻击后即使只能得到某个体对应的多条信息记录,并且记录间的敏感属性也完全不同或不相似,但攻击者却能够根据所掌握的背景知识,从多条信息记录中找出对应的信息记录,从而获取到该个体的隐私信息。
14.目前提出的匿名化方法主要通过泛化和抑制操作来实现。
① 泛化:泛化的基本思想是用更一般的值来取代原始属性值。通常泛化可分为两种类型:域泛化和值泛化。
② 抑制:抑制又成隐匿,是指用最一般化的值取代原始属性值。
15.数据匿名化算法:
① 基于通用原则的匿名化算法;
② 面向特定应用的匿名化算法;
③ 基于聚类的匿名化算法。
16.隐私保护技术在保护隐私数据的同时,需要最大可能地保证数据的可用性,即保证数据对实际应用的价值。
17.隐私的度量方法:通常从披露风险和信息缺损两个角度对稳私保护的效果进行度量。
① 披露风险:现有的隐私度量都可以统一用"披露风险" (Disc1osure Risk) 来描述。披露风险表示为攻击者根据所发布的数据和其他背景知识(Background Knowledge) 可能披露隐私的概率。通常,关于隐私数据的背景知识越多,披露风险越大。
② 信息缺损:信息缺损表示经过隐私保护技术处理之后原始数据的信息丢失量,是针对发布数据集质量的一种度量方法。
18.隐私保护技术需要遵循最小信息缺损原则;信息缺损越小,说明发布的数据集有效性越高,数据越有价值。
19.隐私保护算法可以从下列方面进行评价和比较:
① 隐私保护度:隐私保护度是站在隐私保护的角度对隐私保护算法进行评估,该算法如何能够最大限度地防止入侵者非法获取隐私数据,对隐私进行有效的保护。
② 数据有效性:数据有效性是指隐私保护算法在处理数据的时候,对原始信息的修改使得挖掘结果,也即最终得出的全局关联规则,与原始数据之间关系的匹配程度。数据缺损的越多,信息丢失的越多,数据的有效性就会越差。
③ 算法复杂度:算法的复杂度一般指算法的时间复杂性和空间复杂性,即算法的执行时间和进行数据处理时消耗的系统资源,可以说算法复杂度是直接与计算效率相关的一条重要标准。
算法复杂性的高低主要体现在所需要的系统资源上。所需资源越多,该算法的复杂性就越高。
④ 算法扩展性:算法扩展性指隐私保护算法在处理海量数据集或者数据量急剧增大时的应变能力。算法扩展性的好坏直接反映在当所处理的数据量突然增多的时候,算法的处理效率是否受到剧烈的影响。显而易见,一个扩展性好的隐私保护算法在数据量增大的同时,其处理效率的变化应该是相对缓慢的。
【备考点拨】
了解并理解相关知识点内容。