登陆 注册
  • 基于SPARK的分布式网页近似度检测

    hhsa54hhsa54 2019-08-25

    前言随着Web上数量的急剧增长,近似镜像网页的数量也在不断增加。近似镜像网页的存在,严重影响了搜索引擎的检索结果。如果我们能将搜集到的网页中的近似镜像网页去掉,可以提高搜集系统和索引系统效率,用户查询时也不会出现大量内容重复的网页。去除镜像网页即需要网页近似度检测算法。实验基于相似性连接实现了基于SPARK的分布式网页近似度检测,对5000个网页进行了相似度...

  • 基于DNS缓存的用户追踪

    hhsa54hhsa54 2019-05-20

    本论文介绍了基于给每个用户分配独特的DNS记录来追踪用户长达一天的新技术,其主要解决了DNS缓存带来的识别问题。该技术可以突破浏览器隐私模式或者多浏览器模式并区分装载不同组件的计算机。tagging技术(存储识别用户的数据,e.g. cookie)和fingerprinting技术(识别设备中已经存在的属性,e.g. 字体安装识别)是两种比较常见的技术。但都...

1
请关注微信公众号
微信二维码
不容错过
Powered By SangYun.Net