新闻搜索引擎的技术分析及google news的对照

新闻搜索引擎不过搜索引擎的一类,预期说开发新闻搜索引擎,如果更准确的说不如说是开发一个“能够识别新闻”的“新闻爬虫”。

既然没有“新闻爬虫”这个概念,我就将其定义为“News Crawl”,这个News Crawl与以往的爬虫和蜘蛛有什么不同?难度何在?有和意义?

1] 新闻爬虫是机器爬虫,仍然是按照以往的爬虫程序进行运行,但是不同之处如下:
只爬固定的新闻站点,或者某个站点的某一个 directory 下。这样确保新闻的来源
爬虫对新闻站点进行分类/权重的计算是 机器+人工 参与的
爬虫对新闻的抓取要频繁的多
爬虫要对新闻网页里面的垃圾(噪音,例如广告,无用的联接)信息能够精确的处理。

2] 以往的爬虫是一股脑的抓取,而新闻爬虫的Parser的难度要求是核心了。这点上基本上要用AI的一些技术放进去进行智能的分析。

3] 以往的新闻网站,例如新浪,搜狐,都是进行人工编辑,无论在人力上和时间上都有大量的浪费和延迟,因此新闻爬虫的好处不言而愉,就象有无数的机器编辑在帮网站进行浏览,提取,寻找新闻,当然新闻来源要快的多而且剩力得多了。

可惜的是,AI(人工智能)发展到今天,连一个网页的摘要都不能产生,因此在一定程度上看来还仍然需要人工的参与。



上一篇: 平移算法简介
下一篇: 博客搜索引擎逐渐成为一个趋势
文章来自: 本站原创
引用通告: 查看所有引用 | 我要引用此文章
Tags: 搜索引擎研究
相关日志:
评论: 0 | 引用: 0 | 查看次数: 3621
发表评论
昵 称:
密 码: 游客发言不需要密码.
邮 箱: 邮件地址支持Gravatar头像,邮箱地址不会公开.
网 址: 输入网址便于回访.
内 容:
验证码:
选 项:
虽然发表评论不用注册,但是为了保护您的发言权,建议您注册帐号.
字数限制 1000 字 | UBB代码 开启 | [img]标签 关闭

 广告位

↑返回顶部↑