网页自动分类引擎

对于搜索引擎来说,能够自动的识别网页的类别还不够,因为一个网页的类别往往不是单独的,而是在不同的分类基础上有不同的分类结果,本文在这里再次给出信噪比这个概念:

信噪比是一个用来衡量网页里关键词的信息是否超过一定的阈值的关键:


网页信噪比(Significant)

一个网页针对不懂的搜索词有一个信噪比的概念,信噪比Significant的定义如下:
Sig=(Sqrt(Ns)/(Sqrt(Nb)))*Log(Nb)
Ns为被搜索词出现的次数,Nb是背景项,是指总共这个网页里包含的词汇量。

这是针对单个搜索词语而言的, 如果针对多个词语,通常是采用
Sig=Sigma(Sig_i),这个Sig_i是第i个词汇的信噪比。

通常的情况下如果一个网页的Nb背景项将相对稳定,可以采用Nb+Ns来代替。

博索的网页自动分类引擎是第一个在线计算网页信噪比的在线搜索引擎,可以根据booso的结果进行整理分类,可以知道为什么在搜索引擎里那些拍名最靠前的网页能够上榜的原因了。
上图绿色表示权重,粉色表示信噪比



上一篇: 博客搜索引擎逐渐成为一个趋势
下一篇: 如何提高搜索引擎排名
文章来自: 本站原创
引用通告: 查看所有引用 | 我要引用此文章
Tags: 搜索引擎研究
相关日志:
评论: 0 | 引用: 0 | 查看次数: 3278
发表评论
昵 称:
密 码: 游客发言不需要密码.
邮 箱: 邮件地址支持Gravatar头像,邮箱地址不会公开.
网 址: 输入网址便于回访.
内 容:
验证码:
选 项:
虽然发表评论不用注册,但是为了保护您的发言权,建议您注册帐号.
字数限制 1000 字 | UBB代码 开启 | [img]标签 关闭

 广告位

↑返回顶部↑