Shutong Chen's Blog


  • Home

  • Categories

  • Archives

  • Tags

  • Sitemap

  • Search

[论文笔记]Towards Plausible Graph Anonymization图匿名化

Posted on 2020-06-05 | Post modified | In Paper Reading | | Visitors

2020 NDSS accepted paper: Towards Plausible Graph Anonymization

从社交网络导出的图数据包含了许多对工业、学术有价值的信息,同时也包含了比较敏感的隐私信息,例如一个用户的社交关系,从中可以推导出ta的不少隐私属性。因此,在公开发布这样的图数据时,需要先进行匿名化。

衡量图的匿名化程度有一些可以借鉴的度量,例如数据库的k-anonymity:一个发布的数据库中,一条个人的信息至少无法与其他k-1个人的区分开。在图数据中,(k, l)-anonymity指的是一个节点至少与k-1个其他节点拥有l个相同的邻居。也有一些算法基于度数来定义k-anonymity: 一个节点至少有k-1个其他节点和它度数相同。

当前,图匿名化的主流方法是在图的边集中加入干扰,如在图中加入一些fake的边(或者减少一些边,但是因为减少边会对utilit有较大损害,所以一般都是添加边)。

作者发现在state-of-art的方法中,加边的策略都没有考虑到图的结构特征,特别是没有考虑到朋友(相邻节点)之间的相似性。因此,他们认为可以通过graph embedding之间的比较,在匿名化的图上检测假边,从而进行恢复。为了证实,用了两种当前效果最好的图匿名化算法——k-DA 和 SalaDP来进行实验。

Read more »

[论文笔记]Knock Knock, Who's There? Membership Inference on Aggregate Location Data

Posted on 2020-04-25 | Post modified | In Paper Reading | | Visitors

论文:NDSS 2018的best paper award:Knock Knock, Who’s There? Membership Inference on Aggregate Location Data

Knock Knock, Who’s There? Membership Inference on Aggregate Location Data

在涉及数据公开的时候,为了保护用户的隐私,机构通常会公开统计数据,隐去可以识别个体的信息,在公开数据的时候,还要注意不能让人从统计数据中推断出个体的信息。

现在有越来越多的应用,为了提供某些功能需要收集用户的位置序列,并发布聚集的位置信息,例如收集车辆的位置序列来显示一张动态的交通情况地图,估算某条路线的拥堵情况;或者聚集显示某个餐厅的人数,来估算等待时间。因为位置信息、特别是时间序列的位置很敏感,可以从中得到许多用户的个人隐私,所以这种位置的统计数据更要注意不能泄露个体信息。https://arxiv.org/abs/1703.00366这篇文章表明如果有目标用户移动轨迹的一些先验知识,就可以从聚集的数据中挖掘得到更多信息,甚至可以定位该用户; 有时用户的轨迹可以直接从聚集数据中推断,而不需要任何先验的知识。

要从统计数据中推断个体,首先就必须要能推断出某个目标个体的数据是不是该聚集的一部分,这个叫做membership inference. 基于membership inference,membership inference attack最开始是在Membership Inference Attacks Against Machine Learning Models

这篇论文中提出来的一种新的攻击方式,在MIA这篇论文中关注的是机器学习模型的隐私泄露问题,就是推断目标是否出现在某个模型的训练集中。 Membership inference 的方法也可以用在数据提供者要发布统计数据的时候,评估发布的危险性。

作者将membership inference作为一个分类问题,即对一个target user,预测它是否是某个聚集数据的成员。在两个数据集上测试,结果预测的AUC非常高,在有先验知识的情况下,甚至在每一个聚集都包含9500个用户的时候AUC还能达到 1.0。 他们也测试了影响预测正确率的一些因素,例如,每组用户人数、timeframe、数据的颗粒度、稀疏程度。他们用基于差分隐私的方法来研究如何对抗成员推断攻击,发现这种对抗总体都是比较有效的,但是会以牺牲功能为代价,而且当攻击者使用噪声数据来训练的时候,这种保护的效果就不那么好了。

本文的贡献:

  1. 提出一种聚集位置序列数据的成员推断方法
  2. 用该方法去量化raw aggregate的隐私泄露问题
  3. 阐述了这种方法可以如何用来研究defense mechanism的有效性
Read more »

[cs224w笔记]8.Graph Neural Network

Posted on 2020-03-29 | Post modified | In social network , graph-based machine learning | | Visitors

内容提要:

  1. 图卷积原理和基础版
  2. graphSAGE
  3. graph attention network

回到node embedding问题,之前的DeepWalk以及node2vec等等,用的都是“shallow embedding”,他们的encoder函数都是相当于一个lookup table。

这样的做法有什么局限性?

  1. 要学习的参数非常多, 整个表都是要学习的,n个节点,d维表示,那就是nd个参数,而n往往是非常大的。
  2. inherently transductive: 它不能产生那些不在training过程中的节点的embedding,就是如果有一个新的网络/新的节点,同样的参数不能在新网络上使用,必须重新训练。
  3. 没有考虑节点本身的特征,只是考虑了网络结构。
Read more »

[cs224w笔记]4.网络聚类之谱分析方法

Posted on 2020-03-14 | Post modified | In social network , graph-based machine learning | | Visitors

这是斯坦福cs224w的课程笔记,根据老师讲课内容、ppt和助教的笔记和自己的理解整理的。 cs224w的资源在b站和youtube都有,不过没有字幕,jure老师的口音挺可爱的,听一俩节课也习惯了,不过有时候还是配合助教的笔记看清楚一些。

助教的笔记: https://snap-stanford.github.io/cs224w-notes/network-methods/spectral-clustering

课程网站(有ppt和作业):http://web.stanford.edu/class/cs224w/

另外, 之前没有发现原来文章的排版那么难看!稍微改了一下行距,可能会好一些orz 如果有空我会把英文部分尽量都翻译过来的

Read more »

[论文阅读笔记]Please Forget Where I Was Last Summer:The Privacy Risks of Public Location (Meta)Data 社交应用位置元数据的隐私暴露问题

Posted on 2020-03-01 | Post modified | In Paper Reading | | Visitors

论文题目:Please Forget Where I Was Last Summer:The Privacy Risks of Public Location (Meta)Data

链接:

Please Forget Where I Was Last Summer:The Privacy Risks of Public Location (Meta)Data

Abstract

这篇文章研究用户在社交网站,例如推特上的位置数据,如何以及多大程度上泄露了他们的隐私(例如敏感信息,身体状况等)。他们制作了一个LPAuditor的工具,这个工具可以解释性地评价社交位置元数据(location metadata)造成的隐私泄露。

这个系统首先可以以最细的粒度发现用户的关键位置(通过鉴别他们真实的邮件地址(postal addresses). 然后,他们可以自动地进行隐私信息推断, 比如发现用户去过的和健康相关的位置、宗教场所以及夜店等。

作者们还进一步探索了用户活动和暴露出来的信息失配的情况。他们发现老版本的推特app,会给用户的geo-tagged的推文加上精确的GPS 坐标(在元数据里),这种做法是会侵犯用户隐私的。而当用户对自己的数据有更多选择,例如可以选择他们要发表什么粒度的location data时,这种细粒度带GPS坐标的推文94%都不会被发表,说明用户对自己精确的位置信息是十分在意的。

所以,这个LPAuditor可以给用户作为一种审核工具,告诉用户在发表这个位置信息的时候,他们的什么隐私可能会被暴露,从而让用户对自己的数据有更多选择。

Read more »

[论文阅读笔记]假新闻检测 dEFEND: Explainable Fake News Detection

Posted on 2020-02-19 | Post modified | In Paper Reading | | Visitors

论文: dEFEND: Explainable Fake News Detection

KDD2019:

[KDD 2019 dEFEND: Explainable Fake News Detection](https://www.kdd.org/kdd2019/accepted-papers/view/defend-explainable-fake-news-detection)

ABSTRACT

本文研究的问题是假新闻检测,假新闻检测可以看作一个分类问题,它和谣言分类、fact check、垃圾内容挖掘等比较相似,都属于内容质量检测的领域。假新闻检测的研究方向主要有三个:

  1. 数据集: 假新闻标准数据集需要人工去构建。
  2. 特征方面的工作: 假新闻检测的方法可以分为基于内容和基于社交网络,这些方法都涉及到新闻文本的embedding、用户的embedding、用户之间社交网络的embedding如何获取的问题。
  3. 模型研究。

本文提出,虽然之前的工作在假新闻检测上获得了比较准确的结果,但是这些模型都不是可解释的,不能告诉我们为什么判定这篇新闻是假新闻。他们提出了一个融合模型,根据新闻内容和用户评论来检测,同时能够筛选出Top-k 用户评论来解释为什么这条新闻是假的。作者在真实数据集上做实验,结果比7个模型f1-score高出5.33%,精确度大幅提升。

Read more »

MIT 6.828 JOS操作系统实验6-文件系统实现详解

Posted on 2020-02-03 | Post modified | In Lab Report | | Visitors

Lab6:文件系统实现

JOS操作系统提供了一个简单的文件系统,它可以满足基本功能:创建,读取,写入,删除和以分层目录结构来组织文件。但并未提供文件所有权、用户权限的概念,不支持硬链接、符号链接、时间戳或特殊设备文件等,它提供的保护仅能捕获错误。

Read more »

MIT 6.828 JOS 内存管理详解 操作系统实验5

Posted on 2020-02-01 | Post modified | In Lab Report | | Visitors

本文详解JOS操作系统虚拟内存的结构,以及内存管理单元的结构与实现。 在这次实验中,将探索以下问题:

  • 计算机启动时如何开启虚拟内存
  • 程序虚拟地址空间的结构
  • 如何将内核物理地址与虚拟地址映射
  • 访问一个虚拟地址的时候,会发生什么
  • 如何管理内存空闲空间
  • 如何保护特定的代码和数据
  • ……
Read more »

OS操作系统实验:xv6调度(RR, 优先级调度, 优先级队列) 实现和分析 Part 1- xv6代码讲解

Posted on 2020-01-31 | Post modified | In Lab Report | | Visitors

Lab 4:调度

调度

任何操作系统中,都可能出现进程的个数大于处理器个数的情况,这就需要考虑如何分配处理器资源。一般进程的执行是CPU计算和IO操作的循环,当进程长时间等待某种资源时,为了更好地利用CPU资源,应选择其他准备好的进程来代替它;当进程完成所需的时间过长时,为了让其他已经在系统中的进程等待时间不要过长,也需要在某个适当的时间暂停当前的进程, 因此便需要多进程并发,也就需要调度。

调度指的是决定一个进程在什么时候、是否要暂停,从一个等待队列中选择另一个进程来代替它,调度涉及调度策略的选择,也包含完成进程切换的动作。操作系统通过不断地调度,造成并发的效果,同时也为每个进程造成独占资源的假象。调度涉及以下的问题:

Read more »

OS操作系统实验:xv6调度(RR, 优先级调度, 优先级队列) 实现和分析 Part 3- xv6 优先级调度算法实现

Posted on 2020-01-31 | Post modified | In Lab Report | | Visitors

上一篇: Part 2 RR调度周转、等待时间等的统计 第一篇: Part 1 xv6调度代码讲解

TODO3: 实现优先级调度算法

基于优先级的调度算法是一类算法,基本思想是为每一个进程赋予不同的优先级,在调度时优先选择优先级最高的进程来调度。优先级调度有许多种,大致可以分为:

Read more »
1 2
Shutong Chen

Shutong Chen

12 posts
4 categories
12 tags
RSS
GitHub 微博
© 2020 Shutong Chen
Powered by Jekyll
Theme - NexT.Muse