如何保持大数据(理论上)匿名

John C. Tanner

如何保持大数据(理论上)匿名

2013年5月15日

项目: 研究人员声称已经开发出一种模型,用于处理从蜂窝网络生成的大数据而不泄露移动用户的身份。

来自AT的研究小组&T,罗格斯大学,普林斯顿大学和洛约拉大学已经建立了一个“mobility model”洛杉矶和纽约市,使用AT上的移动语音呼叫和文本消息中的位置数据点&T’在这两个城市的网络。模型汇总数据,产生代表性“综合通话记录”,然后在数学上掩盖了任何可以识别人员身份的数据,报告了《技术评论》:
 
新方法首先汇总了真实的人类运动痕迹,然后确定可能指示家庭,工作或学校的常见位置。接下来,它创建了一组运输模型。这些模型生成研究人员称为人员的路线轨迹“synthetic,”因为它们仅代表汇总数据,而不代表实际人员。
 
但是第三部分是关键。即使这些所谓的综合记录也可以与真实记录紧密匹配(尤其是当基础汇总样本较小时)。因此,使用新兴技术(称为差异隐私)的算法可以精确计算出这种风险的严重程度,以及如何通过更改数据来降低这种风险。
 
换句话说,您可以注入“noise”进入模型,例如更改汇总的家庭和工作地点或呼叫时间,以减少对单个用户数据的依赖。
 
那’之所以如此,是因为其他研究已经证明了这一点’s possible to 获取匿名的移动用户数据并锁定某人’s name and address 用它。在三月麻省理工学院和大学的研究人员é比利时的Catholique de Louvain从100万个移动用户那里获取了数据,仅使用四个位置参考点就设法识别了其中的95%。
 
当然,问题是上述模型在现实世界中将在多大程度上起作用,或者某人找到解决它的方法将花费多长时间。
 
为此,那里’还有一个问题是,cellcos将如何遵循该模型,这将取决于诸如本地监管环境之类的事物,以及它们是否能够像可识别数据一样有效地货币化匿名数据。虽然匿名数据是 理论上有用 对于诸如街道交通规划之类的事情,以及对诸如种族隔离,疟疾暴发和贫困程度之类的事情进行规划,’不一定是那里的商业商业模式。
 
还有’来自Google和Facebook等OTT互联网播放器的竞争压力,它们已经开始收集大量用户数据,以为其广告客户带来收益(有时, 任何政府机构可能想要访问它)。如果不是’为了使所有数据保持匿名,为什么应该要求cellcos这样做?
 
同时,当我们’有关大数据,其中的商业价值及其提供的匿名性级别,您可能需要查看 这块 麻省理工学院公民媒体中心的凯特·克劳福德(Kate 克劳福德)讲了有关大数据的五个神话,其中包括:"大数据是匿名的,因此不会侵犯我们的隐私。"
 
克劳福德’s verdict: “Flat-out wrong.”
来自服务器端存储的Thumbail图片: 
约翰·C·坦纳
资源: 

 

Telecomasia.net完整网站

©2012年Questex Media Group公司旗下的Questex Asia Ltd.。版权所有。禁止全部或部分复制。请将任何技术评论或问题发送给我们的网站管理员。