[论文笔记]Towards Plausible Graph Anonymization图匿名化

Posted on 2020-06-05 | Post modified | In Paper Reading | | Visitors

2020 NDSS accepted paper： Towards Plausible Graph Anonymization

从社交网络导出的图数据包含了许多对工业、学术有价值的信息，同时也包含了比较敏感的隐私信息，例如一个用户的社交关系，从中可以推导出ta的不少隐私属性。因此，在公开发布这样的图数据时，需要先进行匿名化。

衡量图的匿名化程度有一些可以借鉴的度量，例如数据库的k-anonymity：一个发布的数据库中，一条个人的信息至少无法与其他k-1个人的区分开。在图数据中，(k, l)-anonymity指的是一个节点至少与k-1个其他节点拥有l个相同的邻居。也有一些算法基于度数来定义k-anonymity：一个节点至少有k-1个其他节点和它度数相同。

当前，图匿名化的主流方法是在图的边集中加入干扰，如在图中加入一些fake的边（或者减少一些边，但是因为减少边会对utilit有较大损害，所以一般都是添加边）。

作者发现在state-of-art的方法中，加边的策略都没有考虑到图的结构特征，特别是没有考虑到朋友（相邻节点）之间的相似性。因此，他们认为可以通过graph embedding之间的比较，在匿名化的图上检测假边，从而进行恢复。为了证实，用了两种当前效果最好的图匿名化算法——k-DA 和 SalaDP来进行实验。

[论文笔记]Knock Knock, Who's There? Membership Inference on Aggregate Location Data

Posted on 2020-04-25 | Post modified | In Paper Reading | | Visitors

论文：NDSS 2018的best paper award：Knock Knock, Who’s There? Membership Inference on Aggregate Location Data

Knock Knock, Who’s There? Membership Inference on Aggregate Location Data

在涉及数据公开的时候，为了保护用户的隐私，机构通常会公开统计数据，隐去可以识别个体的信息，在公开数据的时候，还要注意不能让人从统计数据中推断出个体的信息。

现在有越来越多的应用，为了提供某些功能需要收集用户的位置序列，并发布聚集的位置信息，例如收集车辆的位置序列来显示一张动态的交通情况地图，估算某条路线的拥堵情况；或者聚集显示某个餐厅的人数，来估算等待时间。因为位置信息、特别是时间序列的位置很敏感，可以从中得到许多用户的个人隐私，所以这种位置的统计数据更要注意不能泄露个体信息。https://arxiv.org/abs/1703.00366这篇文章表明如果有目标用户移动轨迹的一些先验知识，就可以从聚集的数据中挖掘得到更多信息，甚至可以定位该用户；有时用户的轨迹可以直接从聚集数据中推断，而不需要任何先验的知识。

要从统计数据中推断个体，首先就必须要能推断出某个目标个体的数据是不是该聚集的一部分，这个叫做membership inference. 基于membership inference，membership inference attack最开始是在Membership Inference Attacks Against Machine Learning Models

这篇论文中提出来的一种新的攻击方式，在MIA这篇论文中关注的是机器学习模型的隐私泄露问题，就是推断目标是否出现在某个模型的训练集中。 Membership inference 的方法也可以用在数据提供者要发布统计数据的时候，评估发布的危险性。

作者将membership inference作为一个分类问题，即对一个target user，预测它是否是某个聚集数据的成员。在两个数据集上测试，结果预测的AUC非常高，在有先验知识的情况下，甚至在每一个聚集都包含9500个用户的时候AUC还能达到 1.0。他们也测试了影响预测正确率的一些因素，例如，每组用户人数、timeframe、数据的颗粒度、稀疏程度。他们用基于差分隐私的方法来研究如何对抗成员推断攻击，发现这种对抗总体都是比较有效的，但是会以牺牲功能为代价，而且当攻击者使用噪声数据来训练的时候，这种保护的效果就不那么好了。

本文的贡献：

提出一种聚集位置序列数据的成员推断方法
用该方法去量化raw aggregate的隐私泄露问题
阐述了这种方法可以如何用来研究defense mechanism的有效性

[cs224w笔记]8.Graph Neural Network

Posted on 2020-03-29 | Post modified | In social network , graph-based machine learning |

内容提要：

图卷积原理和基础版
graphSAGE
graph attention network

回到node embedding问题，之前的DeepWalk以及node2vec等等，用的都是“shallow embedding”，他们的encoder函数都是相当于一个lookup table。

这样的做法有什么局限性？

要学习的参数非常多，整个表都是要学习的，n个节点，d维表示，那就是nd个参数，而n往往是非常大的。
inherently transductive：它不能产生那些不在training过程中的节点的embedding，就是如果有一个新的网络/新的节点，同样的参数不能在新网络上使用，必须重新训练。
没有考虑节点本身的特征，只是考虑了网络结构。

[cs224w笔记]4.网络聚类之谱分析方法

Posted on 2020-03-14 | Post modified | In social network , graph-based machine learning |

这是斯坦福cs224w的课程笔记，根据老师讲课内容、ppt和助教的笔记和自己的理解整理的。 cs224w的资源在b站和youtube都有，不过没有字幕，jure老师的口音挺可爱的，听一俩节课也习惯了，不过有时候还是配合助教的笔记看清楚一些。

助教的笔记： https://snap-stanford.github.io/cs224w-notes/network-methods/spectral-clustering

课程网站（有ppt和作业）：http://web.stanford.edu/class/cs224w/

另外，之前没有发现原来文章的排版那么难看！稍微改了一下行距，可能会好一些orz 如果有空我会把英文部分尽量都翻译过来的

[论文阅读笔记]Please Forget Where I Was Last Summer:The Privacy Risks of Public Location (Meta)Data 社交应用位置元数据的隐私暴露问题

Posted on 2020-03-01 | Post modified | In Paper Reading | | Visitors

论文题目：Please Forget Where I Was Last Summer:The Privacy Risks of Public Location (Meta)Data

链接：

Please Forget Where I Was Last Summer:The Privacy Risks of Public Location (Meta)Data

Abstract

这篇文章研究用户在社交网站，例如推特上的位置数据，如何以及多大程度上泄露了他们的隐私（例如敏感信息，身体状况等）。他们制作了一个LPAuditor的工具，这个工具可以解释性地评价社交位置元数据（location metadata）造成的隐私泄露。

这个系统首先可以以最细的粒度发现用户的关键位置（通过鉴别他们真实的邮件地址(postal addresses). 然后，他们可以自动地进行隐私信息推断，比如发现用户去过的和健康相关的位置、宗教场所以及夜店等。

作者们还进一步探索了用户活动和暴露出来的信息失配的情况。他们发现老版本的推特app，会给用户的geo-tagged的推文加上精确的GPS 坐标（在元数据里），这种做法是会侵犯用户隐私的。而当用户对自己的数据有更多选择，例如可以选择他们要发表什么粒度的location data时，这种细粒度带GPS坐标的推文94%都不会被发表，说明用户对自己精确的位置信息是十分在意的。

所以，这个LPAuditor可以给用户作为一种审核工具，告诉用户在发表这个位置信息的时候，他们的什么隐私可能会被暴露，从而让用户对自己的数据有更多选择。

[论文阅读笔记]假新闻检测 dEFEND: Explainable Fake News Detection

Posted on 2020-02-19 | Post modified | In Paper Reading | | Visitors

论文： dEFEND: Explainable Fake News Detection

KDD2019：

[KDD 2019

dEFEND: Explainable Fake News Detection](https://www.kdd.org/kdd2019/accepted-papers/view/defend-explainable-fake-news-detection)

ABSTRACT

本文研究的问题是假新闻检测，假新闻检测可以看作一个分类问题，它和谣言分类、fact check、垃圾内容挖掘等比较相似，都属于内容质量检测的领域。假新闻检测的研究方向主要有三个：

数据集：假新闻标准数据集需要人工去构建。
特征方面的工作：假新闻检测的方法可以分为基于内容和基于社交网络，这些方法都涉及到新闻文本的embedding、用户的embedding、用户之间社交网络的embedding如何获取的问题。
模型研究。

本文提出，虽然之前的工作在假新闻检测上获得了比较准确的结果，但是这些模型都不是可解释的，不能告诉我们为什么判定这篇新闻是假新闻。他们提出了一个融合模型，根据新闻内容和用户评论来检测，同时能够筛选出Top-k 用户评论来解释为什么这条新闻是假的。作者在真实数据集上做实验，结果比7个模型f1-score高出5.33%，精确度大幅提升。

MIT 6.828 JOS操作系统实验6-文件系统实现详解

Posted on 2020-02-03 | Post modified | In Lab Report | | Visitors

Lab6：文件系统实现

JOS操作系统提供了一个简单的文件系统，它可以满足基本功能：创建，读取，写入，删除和以分层目录结构来组织文件。但并未提供文件所有权、用户权限的概念，不支持硬链接、符号链接、时间戳或特殊设备文件等，它提供的保护仅能捕获错误。

MIT 6.828 JOS 内存管理详解操作系统实验5

Posted on 2020-02-01 | Post modified | In Lab Report | | Visitors

本文详解JOS操作系统虚拟内存的结构，以及内存管理单元的结构与实现。在这次实验中，将探索以下问题：

计算机启动时如何开启虚拟内存
程序虚拟地址空间的结构
如何将内核物理地址与虚拟地址映射
访问一个虚拟地址的时候，会发生什么
如何管理内存空闲空间
如何保护特定的代码和数据
……

OS操作系统实验：xv6调度(RR, 优先级调度, 优先级队列）实现和分析 Part 1- xv6代码讲解

Posted on 2020-01-31 | Post modified | In Lab Report | | Visitors

Lab 4：调度

调度

任何操作系统中，都可能出现进程的个数大于处理器个数的情况，这就需要考虑如何分配处理器资源。一般进程的执行是CPU计算和IO操作的循环，当进程长时间等待某种资源时，为了更好地利用CPU资源，应选择其他准备好的进程来代替它；当进程完成所需的时间过长时，为了让其他已经在系统中的进程等待时间不要过长，也需要在某个适当的时间暂停当前的进程, 因此便需要多进程并发，也就需要调度。

调度指的是决定一个进程在什么时候、是否要暂停，从一个等待队列中选择另一个进程来代替它，调度涉及调度策略的选择，也包含完成进程切换的动作。操作系统通过不断地调度，造成并发的效果，同时也为每个进程造成独占资源的假象。调度涉及以下的问题：

OS操作系统实验：xv6调度(RR, 优先级调度, 优先级队列）实现和分析 Part 3- xv6 优先级调度算法实现

Posted on 2020-01-31 | Post modified | In Lab Report | | Visitors

上一篇： Part 2 RR调度周转、等待时间等的统计第一篇： Part 1 xv6调度代码讲解

TODO3: 实现优先级调度算法

基于优先级的调度算法是一类算法，基本思想是为每一个进程赋予不同的优先级，在调度时优先选择优先级最高的进程来调度。优先级调度有许多种，大致可以分为：