搜索引擎spam的防止

spam现在应该是“相当的”严重了,现在搜索引擎的第一页经常成为了spam的专区,已经严重影响了搜索引擎的正常使用和用户对搜索引擎结果的信任。

参加讨论的有好几个相当专业的朋友,我的抛砖引玉总算没有白费,下面整理一些上次讨论的记录。

1. 什么是spam,seo?

2. spam 和 seo 的差别和关系。

3. spam 的种类
a. 内容型(内容欺骗型与非欺骗型) b. 联结型 c. 复合型

4. 搜索引擎如何判断spam
a. 联结分析:网站(域名,IP)之间的联结,网页之间的联结的数目,应该限制在一定的数目内,并且要考虑分布的状况。
b. 页面单一词汇的分析:页面单一词汇与页面全部词汇的比例和分布,当页面单一词汇集中在少数关键词上,有spam的嫌疑。
c. 页面stopwords的分析:stopwords的比例和位置是一个高斯分布和均匀的。
d. 页面连接页面的相似性分析:相互连接的页面几乎完全相似则有spam的嫌疑。
e. 内容的贝叶斯分析:关键词之间的相关性可以从训练spam样本和非spam样本得到。例如页面里出现:免费,或者铃声下载都不能判断为spam,但是同时出现“免费”,“铃声下载”就极有可能是spam
f. 相关分析:白名单,黑名单
g. 留言陷阱:例如建立多个blog系统,开放一些文章的留言,内容上说明是专门针对spam留言。这样当一些自动留言程序进行留言后联结就被记录下来,成为一个“陷阱”。
h. 非联结内容与正文的比例。就是正文里非联结的文字的比例,这一点我有所担心,因为现在的page rank采用两种page rank,一种是联结型网页,一种是内容型网页,如此判断很容易将联结型网页当做spam,例如 hao123.com 。

5. 锅炉现象
最难判断的是一种我们定义为“锅炉现象”的spam,这个我前一段时间曾经跟车东讨论过:
武大郎对锅炉说。。。
在众多的spam里,一种以替换文章中特殊词汇并加以联结的新类型spam难以从上述方法进行剔除。例如将水浒传里所有的武松替换成锅炉,并将锅炉进行联结到目标网站。

讨论完毕后第二天一位朋友建议从上下文紧挨的上一个字和下一个字来进行分析,这个方法尚在探讨中。

总结:spam已经严重影响了搜索引擎的质量,能否准确消除spam是提升搜索引擎质量的一个关键要素。

这里挂一漏万,如有更多的方法和建议请告知。



[本日志由 admin 于 2007-06-03 08:26 PM 编辑]
上一篇: 信息指纹与消重算法
下一篇: 垂直搜索
文章来自: 本站原创
引用通告: 查看所有引用 | 我要引用此文章
Tags: 搜索引擎研究
相关日志:
评论: 0 | 引用: 0 | 查看次数: 2675
发表评论
昵 称:
密 码: 游客发言不需要密码.
邮 箱: 邮件地址支持Gravatar头像,邮箱地址不会公开.
网 址: 输入网址便于回访.
内 容:
验证码:
选 项:
虽然发表评论不用注册,但是为了保护您的发言权,建议您注册帐号.
字数限制 1000 字 | UBB代码 开启 | [img]标签 关闭

 广告位

↑返回顶部↑