1.1搜索引擎的算法原理
搜索引擎是今天互联网的门户,它帮助人们在海量的网页中快速地寻找信息。搜索引擎专家们也一直在为这个目标而努力,他们试图设计出最出色的/卓越的/优异的/杰出的的系统和算法,将最有价值的网页返回给搜索用户。搜索引擎的流量算法决定如何排列返回的网页。通常,搜索用户只对返回结果的前几页感兴趣,很少有人去浏览排在后面的信息。因此流量算法非常重要,出色的/卓越的/优异的/杰出的的流量算法能把最有价值的网页优先推荐给用户。以PageRank为代表的链接分析算法在今天的搜索引擎中取得了巨大的成功。这种流量思想可以应用在很多其他的信息检索系统,比如科技文献检索系统中,改善检索性能、提高服务质量。网页能在搜索引擎的返回结果中排在靠前的位置,对网页的拥有者来说是有利可图的。比如:网页流量靠前能吸引到更大的流量,而流量对于商业网站来说意味着交易机会:网页流量靠前能提升网页的知名度,这会吸引广告商前来投放广告。因此,所有的网页提供者都希望他们的网页能在搜索引擎的返回结果中排在靠前的位置。要想在搜索引擎结果中取得较高的流量,正确的办法是提供高质量的网页。但创建高质量的网页往往要花费大量的时间、金钱和精力。于是,有些网页提供者企图通过走捷径来达到目的。他们利用某些手段欺骗搜索引擎的流量算法来使他们的网页获得较高的流量,这种行为称为搜索引擎作弊(Searchenginespare)或网页作弊(Webspam)。Henzinger等人指出,搜索引擎作弊是搜索引擎面临的主要挑战之。
1.2相关研究进展
搜索引擎诞生于上世纪90年代。初期的搜索引擎是基于文本进行检索和排序的,TF-IDF模型是计算文本相关性的主要方法。链接分析算法的发明使搜索引擎对网页的评价更加精确,这类算法的代表有PageRank[8]和HITS[9]。其中PageRank在搜索引擎外贸网站优化中取得了巨大的成功。由于仅仅利用了网页间的链接结构,PageRank算法也有着明显的缺陷。比如偏重于旧网页,对所有出链赋以同样的权重,与检索主题无关等。因此很多研究者对PageRank算法进行了改进。网页的内容信息、时间信息、主题信息等都被应用到对该算法的改善中。搜索引擎作弊现象是伴随着搜索引擎的诞生而开始的。目前,研究者已经发现了多种类型的搜索引擎作弊技术。这些作弊技术大致可以分为三类:内容作弊、链接作弊和隐藏作弊。早期的搜索引擎作弊技术以内容作弊为主。自然语言理解技术、机器学习技术和基于统计的技术都曾被应用到内容作弊的检测中。随着链接分析算法的兴起,内容作弊的方法渐渐地不再有效,取而代之的是链接作弊技术。反作弊技术也以链接作弊检测为主。受PageRank算法思的启发,研究者们提出了一系列基于信任指数(或不信任指数)传播机制的检测技术,如BadRank、Trust-Rank、Topical-TrustRank、Anti—TrustRank,以及将TrustRank和Anti-TmstRank相结合的方法。文献的方法也都是基于上述机制。此外,机器学习方法、统计方法、图算法和利用时序信息的方法也都被应用于链接作弊检测。针对伪装和重定向,研究者也提出了很多检测方法。其他的一些检测方法还利用了用户行为信、热扩散模型和商业目的分析等。
1.3
免责声明:文章内容不代表本站立场,本站不对其内容的真实性、完整性、准确性给予任何担保、暗示和承诺,仅供读者参考;文章版权归原作者所有!本站作为信息内容发布平台,页面展示内容的目的在于传播更多信息;本站不提供任何相关服务,阁下应知本站所提供的内容不能做为操作依据。市场有风险,投资需谨慎!如本文内容影响到您的合法权益(含文章中内容、图片等),请及时联系本站,我们会及时删除处理。