再说机器新闻的分类和聚类

Google 新闻改版了,把我想实现的最关键的一部分实现了,没有什么比这个更让我感觉到失落了。我现在的新闻聚类还是石器时代。

想法和技术在与同竞争对手的面前都不是关键,关键的东西是实践。关于新闻分类聚类零零碎碎的做了快3,4个月了,一直没有没有精力来全力以赴的去完成这个。Google的中文新闻刚出来的时候不但分类有误差,而且关于新闻内容的摘要常常也是文不对题,可是就是在这样的磕磕绊绊中google的新闻做的越来越好,我这边的一些想法正在着手实现的时候,Google新闻总是非常意料之中的做到了。


我记得我第一次看到Google新闻首页出现这样的标题错误时,心里在想,Google并不难超越么,因此立此存照,保留了快照,4个月后,Google的新闻的准确度和灵活性已经完全不可同日而语了。

1] 个人新闻门户
改变以往的千人一面的新闻门户是机器新闻的目标,我几个月不上新浪的原因是我不想打开一个有90%内容我不关心的新闻网站。我会看些我订阅的Rss,例如Klog,Keso,Mao等,我这样偷懒的原因是简单的,因为这些人可以进行先期的过滤,将好的新闻/信息已经收集了起来,而降低个人获取信息的难度。

2] 定制+搜索
Google不提供Rss是完全可以离解的,因为Rss实在是把现有的搜索引擎,新闻聚合系统的技术难点降低到了极限,而这些在传统技术中都是Google的长处,Google是一个网络机器,它说实际并不喜欢用户离线的活动。但是,Google的定制和搜索加Email后也是我每天必修课,原因也是我只关心我订阅的一些内容,而这种直接送到google邮箱的做法,仍然是提高Google的粘合力的一种非常有效的做法。

3] 内容
Google 已经成为一个完全监控我们社会内容的永动机。我在Gmail里的260M的Email,包括文档,论文,程序,我曾经有过这样一次经历,给一个另外搜索引擎公司的CEO发email,使用的是我的gmail帐户,但是那封信却以技术故障的原因莫名其妙的没了,这件事情后我开始对Google留了一手,自己的代码不再用google email来备份了。我们在创造内容,我们有机器在监视内容,我们的计算机已经聪明到能够识别这些内容,然后呢?

4] Info Grid 信息网格
Peter Norvig(现在是Google搜索引擎的产品部的总监)的《网络上的人工智能》AI on Web一书上举了大量的演化的例子,我非常佩服这个思维严密的老兄,因为AI常常被一些哲学和数学家的人嘲笑为智商只有75的阿甘。他们可以随便找出一个AI系统的漏洞,可是这些数学家和哲学家仅仅是嘲笑而已,当他们在嘲笑别人的时候,AI 却一步一步的发展,直到现在连嘲笑AI的人也在每天享受人工智能的进步。

Info Grid是将现有信息分布在不同层次,不同类型,不同应用的各个点上进行有机的联接,再整理的一种思想。Info Grid的表现很多,例如Google News已经是一种信息格点的雏形,这种信息格点将不同点上的内容「新闻」进行收集,然后加工,按照阅读者的需要,以相对智能的方式推送到读者面前。

然后呢?然后再根据读者点击,阅览新闻,资料的习惯『注意,我们实际上是在各种网站的监视下的,例如上google搜索,google会纪录用户的点击』进行整理,最后得到了用户行为模型,得到用户的心理,最后调整系统推送给用户的内容。

有一天,当你连续三天点击了姚明的新闻后,你打开的google的首页上也许有令你咋舌多的姚明的新闻,不要慌,这就是user behave driven modle。

5. Exit,出路在哪里?
Google阴影下的出路在哪里?这个大概不是我来提问,应该是Baidu和Yahoo之类的大玩家。当然,大玩家有大玩家的打算和想法,至于小玩家,出路恐怕就在long tail上了,Long Tail 最近是一个很热的词,连Google都说自己是Long Tail了。Google如果是Long Tail,那么谁是Bulk Body呢?

唠叨了这么多,都离题万里了,回头还是要下功夫来做。



上一篇: 马太效应:搜索引擎暗规则之一
下一篇: 计算机文本分类和模糊聚类
文章来自: 本站原创
引用通告: 查看所有引用 | 我要引用此文章
Tags: 搜索引擎研究
相关日志:
评论: 0 | 引用: 0 | 查看次数: 3561
发表评论
昵 称:
密 码: 游客发言不需要密码.
邮 箱: 邮件地址支持Gravatar头像,邮箱地址不会公开.
网 址: 输入网址便于回访.
内 容:
验证码:
选 项:
虽然发表评论不用注册,但是为了保护您的发言权,建议您注册帐号.
字数限制 1000 字 | UBB代码 开启 | [img]标签 关闭

 广告位

↑返回顶部↑