网络数据隐私保护,阿里工程师怎么做?

网络数据隐私保护,阿里工程师怎么做?

[原文来自:www.11jj.com]

阿里妹导读:基于海量个人数据的挖掘和分析,在带来巨大价值的同时,也让个人隐私岌岌可危。比如,在移除数据中标识符属性(身份证号码,手机号码,姓名等)的情况下,简单地分析其他属性组成的准标识符,仍能够轻易地识别个人,个人信息存在巨大的暴露风险。如何更好保护网络数据隐私?一起来看看阿里技术团队的探索。 [本文来自:www.11jj.com]

个人数据挖掘和个人隐私保护,并非鱼与熊掌,可视分析的技术手段能够帮助我们保护个人隐私数据,避免后续的数据挖掘暴露隐私的同时,平衡数据质量发生的变化,减少对后续数据挖掘的影响。针对网络数据中的隐私保护问题,浙江大学、加州大学戴维斯分校和阿里云DataV团队,共同发表了最新的研究成果《GraphProtector: a Visual Interface for Employing andAssessing Multiple Privacy Preserving Graph Algorithms》【1】,这项成果也已论文形式收录在IEEE TVCG中。


网络数据隐私保护,阿里工程师怎么做?

图一  GraphProtector 系统。 a) 保护器视图 b) 历史记录视图 c) 实用性视图 d) 优先级视图


背景


关系描述了人与人之间的互相联系,它可以是一种静态的连接,如“亲属”、“朋友”等,也可以是动态的,通过动作将其关联,例如“通话”、“邮件”等。科技的进步使得人与人之间的联系更为密切,关系变得更复杂,进而形成了一张偌大的网,因此,我们也把这类数据称之为网络数据(或图数据)。网络数据的研究被广泛应用于各个领域,它能够帮助识别社团、划分人群,定位特殊人物、研究信息传播、追踪欺诈行为等。但在对这类数据进行研究的同时,伴随着巨大的隐私泄露风险。为了能够在探索数据背后巨大价值的同时,保护用户的隐私不被泄露,我们提出了一个能够应对网络数据隐私攻击,提供有效隐私保护的可视分析系统——GraphProtector,它不仅能够更全面、更细致地保护用户隐私,同时也能够兼顾数据的实用性,保证数据的质量。

 

隐私保护方法和流程     


针对网络数据的隐私保护相较于一般数据而言,更为困难,原因主要有以下两点:


1) 网络数据自身结构特征繁多,例如,度数分布,最短路径分布,接近中心性分布等,任意的结构特征都有可能成为攻击者的攻击入口,可谓是防不胜防;


2) 网络数据中节点和边都携带了大量的数据,这些数据无疑给了攻击者更多的机会去识别用户现实世界中的身份。


因此,想要完全解决图数据中的隐私问题,将会是一个非常复杂和困难的工作。在当前阶段,我们将研究的重点放在了网络数据的结构特征上,通过修改图的结构特征保护用户的身份不被泄露。其中,之所以选择结构特征作为着手点,最重要的原因是结构特征是网络数据的基础属性,解决结构特征暴露的隐私风险是是解决隐私暴露的必经之路。在这次的研究中,我们先以以下三种结构特征作为示例:


度数:节点度数是和它关联的边的总数(如图二中,图c表格中Degree展示了原始图图a的度数分布);


中心指纹:是指在最长路径`i`的限制下,图中普通节点和中心节点们之间的最短路径所形成的向量。这里为了简化复杂度,我们取`i`设为了`1`,即普通节点和中心节点们是否存在相邻关系作为节点的中心指纹(如图二中,图c中HubFingerprint为选取了原始图图a中4号节点和7号节点作为中心的的中心指纹分布);


子图:指节点集和边集分别是某一图的节点集的子集和边集的子集的图(如图二中,图b为原始图图a的子图);


网络数据隐私保护,阿里工程师怎么做?

图二结构特征举例。 a) 原始数据 b) 子图 c) 度数分布和中心指纹分布

 

前人的研究提供了多种隐私匿名保护思路,如k-匿名、聚类和查分隐私等等,我们在研究中选取了k-匿名模型作为我们保护的基本方法。k-匿名模型是最经典的语义匿名模型之一,在隐私保护领域得到了广泛的应用,在这个模型中,它通过准标识符将数据分成若干个等价类(例如度数相同的节点形成了一个度数等价类,中心指纹相同的节点形成了一个中心指纹等价类,结构相同的子图形成了一个子图等价类),并要求每个等价类中至少存在k个数据记录(例如当k为2时,k-匿名模型要求每一个度数等价类中至少存在2个节点),对于这k个数据记录中的任意一条,被识别出的概率为1/k,从而使得攻击者无法确定他们的攻击目标。


通过前人的研究分析我们得知,没有任何一种隐私保护方法能够抵抗所有的攻击,k-匿名模型是众多方法中最为强大的一种,它在一定条件下可以抵抗大部分的隐私攻击,并且对于数据质量伤害的程度较小,使得经过隐私匿名保护后的数据仍然能够应用于后面的分析和研究中。


在k-匿名模型的基础上,为了尽可能地减少对数据质量的损害,我们采取了保持节点个数不变,仅增加或减少边的策略。同时,在目前我们的研究中,为了减少保护方法之间的冲突以及降低计算的复杂度,我们首先将研究的重点放在了增加边的策略上。


上文中多次提到了“数据质量”,保证数据质量是我们隐私保护过程中的一个重要目标(试想,如果不考虑数据质量,我们完全可以同化所有的用户数据,这样一来攻击者将无法定位到攻击目标,但这样的数据却失去了研究意义)。在使用k-匿名模型增加边的方法来保护数据隐私时,有两种处理策略:


1)为当前等价类中的元素增加适当的边,使得这些元素全部转移到其他等价类中,使得当前等价类不存在,也就不会存在隐私暴露风险;


2)为其他等价类中元素增加适当的边,使其中的元素转移到当前等价类中,从而使当前等价类满足k-匿名模型的要求。基于保护数据质量的目的,对于这两种策略,我们将计算它们的代价,及增加边的数量,采取代价较小的的方法执行。我们设计了详细的算法来实现这一目标。另一方面,对于数据质量的变化,系统提供若干的实用性指标,如度数、最短路径等,我们将在数据处理中以及数据处理后呈现这些指标的变化,帮助使用者进行决策,从而能够采取“最优”的解决方案。


下图展现了采用`GraphProtector`进行网络数据隐私保护的流程:

 

网络数据隐私保护,阿里工程师怎么做?

图三 GraphProtector 的隐私保护流程。 a) 数据导入 b) 优先级制定及实用性指标选取 c) 隐私保护处理 d) 数据导出

 

数据导入:首先,导入待保护的网络数据,系统将使用节点连接图的形式呈现原始数据。此外,系统还提供一些原始数据的结构特征分布供使用者观察和探索。


优先级制定及评估指标选取:在这个阶段,通过观察原始数据的结构特征分布,使用者对节点的优先级进行排序,优先级排序决定了节点的处理顺序,排序较高的节点将会被优先处理。此外,使用者在优先级排序时可以锁定一些节点,被锁定的节点(一般为比较重要的节点,如核心人物等)将不会参与到处理过程中,因此在隐私保护处理前后,它的关联关系将不发生改变。在这个阶段,使用者还需要选择关注的实用性指标,在数据处理前后,系统将呈现这些指标的变化,使用者可以通过它们来评估数据质量的变化。


隐私保护处理:经过以上步骤,我们进入了隐私保护的核心步骤,系统在这个阶段提供多个保护器(Protector)用来进行隐私保护处理。每一个保护器仅针对一种结构特征,使用者可以按照自己的需求选择多个保护器进行组合,从而实现更为全面和细致的保护。


这些保护器的使用方法将统一遵循图三种c图所示的流程,首先,根据用户自定义的k值,保护器会去识别数据中风险,并将风险通过一定的视觉编码呈现给使用者。然后,,使用者可以制定一个或多个保护方案(即保护目标),对于每一个制定的方案,使用者都可以查看处理前后数据实用性指标的变化。接着,使用者对比不同方案的处理结果,观察是否达到了隐私保护的目的,以及数据质量变化是否在可接受的范围之内,最终选择“最优”的方案进行执行。


导出数据:最后,当数据处理到满意的程度时,使用者可以选择导出经过处理的的数据和数据的节点链接图,以及指标变化情况。

 

系统设计


下面将向大家详细介绍GraphProtector 系统的可视化及交互设计。系统主要围绕两个界面进行(图一和图四):


网络数据隐私保护,阿里工程师怎么做?

图四 GraphProtector 系统主要初始界面。 a) 节点链接图视图 b) 优先级视图 c) 实用性视图


图四展示了数据导入(图四a)和优先级制定(图四b)及评估指标选取(图四c)阶段的视图:


节点链接图视图(图四a):主要通过节点链接图以及力引导布局形式展现了原始数据的分布,在数据处理过程中,用户可以调出该视图查看数据变化。


优先级视图(图四b):使用者可以通过结构特征优先级的分布,在坐标轴上选取节点属性的范围,从而制定节点的优先级。视图右侧的每一个区块都代表了一个节点集合,其中罗列了该集合中节点的属性以及该集合中节点的个数,使用者通过拖拽交互来调整集合的优先级顺序,以及选择是否锁定某些集合的节点。


实用性视图(图四c):使用者通过这个视图,选取所关注的数据质量评估指标,这些指标的变化将会在处理前后呈现出来。

 

图一为隐私保护处理(图一a,b)和数据导出阶段的视图:


保护器视图(图a):主要用于风险定义,风险识别,风险处理和数据评估。这些保护器具有统一的处理流程(如下图五所示),分别通过保护器中的以下控件完成:


网络数据隐私保护,阿里工程师怎么做?

图五保护器主要控件。 a) k值输入框 b) “半运行”按钮 c) “记录”按钮 d) “方案相册”按钮

 

  • 全局k值输入框:快速设定保护器内的k值;

  • “半运行”按钮:模拟执行制定方案的运行结果,并记录数据变化;

  • “记录”按钮:记录一个方案,方便后续对比不同方案的执行效果;

  • “方案相册”按钮:展现所有被记录的方案以及这些方案被执行后的实用性指标变化,方便使用者进行比较,从而选取“最优”方案执行;

  • 目前系统设计了三种保护器,分别为度数保护器,中心指纹保护器和子图保护器。


    度数保护器


    我们采用柱状图可视化了数据中的节点度数分布,横轴编码度数,按照从小到大的顺序排列,此外,在横轴上,我们还设计了一个“度数跳跃”符来编码度数分布之间的跳跃情况。纵轴编码该度数等价类中的节点个数,蓝色和灰色矩形分别编码锁定和未锁定的节点个数。


    为了减少用户的认知和交互负担,我们设定了纵轴上的最高值,这个值是我们认为的安全值,即当度数等价类中的节点个数超过这个值时,这个等价类一般是安全的,所以当节点度数高于这个值时,我们可以暂且忽略其具体值,而将重点放在那些不满足k值的节点上。系统用虚线来编码整体k值(在系统中,我们称之为k线),辅助用户判断k值和节点个数的关系,从而定位风险所在。使用者除了可以通过滑动坐标轴上滑块来调整当前保护器内的整体k值外,还可以通过刷选度数范围,调整范围内的局部k值(系统中用实线编码),制定更加细致的隐私保护方案。


    网络数据隐私保护,阿里工程师怎么做?


    中心指纹保护器


    自媒体 微信号:11jj 扫描二维码关注公众号
    爱八卦,爱爆料。

    小编推荐

    1. 1

      会心(会心的意思)

      大家好,小豪今天来为大家解答会心以下问题,会心的意思很多人还不知道,现在让我们一起来看看吧!1、会心的意思是:领会别人没有明白表示的

    2. 2

      如何制作视频短片(如何制作视频短片全过程)

      大家好,小美今天来为大家解答如何制作视频短片以下问题,如何制作视频短片全过程很多人还不知道,现在让我们一起来看看吧!1、打开手机,在

    3. 3

      【节气里的大美中国•小满】今日小满,小得盈满,知足即安!

      风雨潇潇小满天四山蓑笠事新田今天迎来夏日的第二个骨气小满《月令七十二候集解》中说:“小满者,物致于此小得盈满。”此时,夏熟作物的籽

    4. 4

      压面机价格(压面机价格及图片商用)

      大家好,小乐今天来为大家解答压面机价格以下问题,压面机价格及图片商用很多人还不知道,现在让我们一起来看看吧!1、5. 飞利浦(PHILIPS)面条机

    5. 5

      自身特长和熟悉领域(熟悉特长怎么写)

      大家好,小伟今天来为大家解答自身特长和熟悉领域以下问题,熟悉特长怎么写很多人还不知道,现在让我们一起来看看吧!1、在描述自己的专业领

    6. 6

      安徽农金网上银行登陆(安徽农金网上手机银行)

      大家好,小乐今天来为大家解答安徽农金网上银行登陆以下问题,安徽农金网上手机银行很多人还不知道,现在让我们一起来看看吧!1、网络输入“

    7. 7

      取暖费发放标准文件(取暖费政策文件)

      大家好,小伟今天来为大家解答取暖费发放标准文件以下问题,取暖费政策文件很多人还不知道,现在让我们一起来看看吧!1、山西省冬季取暖补贴

    8. 8

      s31668是什么材质(s31653是什么材料)

      大家好,小娟今天来为大家解答s31668是什么材质以下问题,s31653是什么材料很多人还不知道,现在让我们一起来看看吧!1、06Cr17Ni12Mo2Ti (S31668) 属于国

    Copyright 2024.依依自媒体,让大家了解更多图文资讯!