新闻搜索引擎的技术分析及google news的对照
作者:admin 日期:2007-06-03
新闻搜索引擎不过搜索引擎的一类,预期说开发新闻搜索引擎,如果更准确的说不如说是开发一个“能够识别新闻”的“新闻爬虫”。
既然没有“新闻爬虫”这个概念,我就将其定义为“News Crawl”,这个News Crawl与以往的爬虫和蜘蛛有什么不同?难度何在?有和意义?
1] 新闻爬虫是机器爬虫,仍然是按照以往的爬虫程序进行运行,但是不同之处如下:
只爬固定的新闻站点,或者某个站点的某一个 directory 下。这样确保新闻的来源
爬虫对新闻站点进行分类/权重的计算是 机器+人工 参与的
爬虫对新闻的抓取要频繁的多
爬虫要对新闻网页里面的垃圾(噪音,例如广告,无用的联接)信息能够精确的处理。
2] 以往的爬虫是一股脑的抓取,而新闻爬虫的Parser的难度要求是核心了。这点上基本上要用AI的一些技术放进去进行智能的分析。
3] 以往的新闻网站,例如新浪,搜狐,都是进行人工编辑,无论在人力上和时间上都有大量的浪费和延迟,因此新闻爬虫的好处不言而愉,就象有无数的机器编辑在帮网站进行浏览,提取,寻找新闻,当然新闻来源要快的多而且剩力得多了。
可惜的是,AI(人工智能)发展到今天,连一个网页的摘要都不能产生,因此在一定程度上看来还仍然需要人工的参与。
广告位