业界文摘

计算机文本分类和模糊聚类

作者:admin 日期:2007-06-03

字体大小: 小中大

机器人新闻的Beta版本：机器新闻中心，因为没有更多的时间开发，暂时收集大家意见和建议，等月底再继续开发。

1.
什么是分类？
分类就是将一片文章／文本自动的识别出来，按照先验的类别进行匹配，确定。
什么是聚类？
聚类就是将一组的文章／文本／信息进行相识性的比较，将比较相识的文章／文本／信息归为同一组的技术。
什么是模糊聚类？
模糊聚类就是没有先验的聚类因子，完全按照算法来进行识别和类大小，类的多少，类的误差等都是不确定因素。

我这里给出来的例子，例如：

[enternews]::主张：看清楚男人的货色_tom生活
有个总强调自己是名门之后的女人写过一篇文章，叫作《男人分两截》，认为男人的“上半截是修养，下半截是本质”。并且，如果“下半截没戏，上半截也肯定好不到哪儿去”。通常大家都认为男人可以完全把性和爱分开，其实未必，渡边淳一就说过：“男人的性行为其实是很精神性的。”虽然男人不幸被这个女人下了屠刀，劈成两截，但是我想在如今多数女人的眼中，男人是不是应当分两截？哪截和哪截不一样？这些并不是很重要。 ... News from:life.news.tom.com news.sdinfo.net news.sohu.com www.chinanews.com.cn
相关的内容一共有 10 条

其中： enternews 就是说这个信息属于娱乐类的新闻，这里就是进行分类了。
然后是新闻的摘要，然后是新闻的来源，我都只给出4个新闻源，例如上面的 life.news.tom.com。相关的内容一共有 10 条：这个就是聚类了，就是说从整个娱乐新闻里进行分类，刚好有10条新闻讲述的主题和内容比较接近，因此就聚类为一个。我们在看看这10条新闻的内容：主张：看清楚男人的货色_tom生活;“三八”：女人不爱男人不快女性频道南方网; 离婚，先要尊严还是钱？女性频道南方网.... ，可以基本上看出来是一个与恋爱有关的女性话题。

从这点上看简并算法应该还算有些价值，当然也有不精确的地方：将坦克聚类到了互联网，我下面来叙述这个问题。

2.
分类和聚类为什么出错？
关键在于一个模糊上。因为机器不像人拥有极强的认知能力，利用机器进行新闻分类和聚类所采用的做法通常都是我们说的模式识别，或者更精确的说其实是一种模糊特征识别。

计算机看不到特征，那么这些特征从哪里来？

样本

什么是样本？
样本就是用来进行信息识别的先验信息，简单的说就是先告诉计算机，什么是娱乐信息，什么是互联网，什么是体育等。
计算机基于这些样本进行学习后得到了这些样本的直观特征，例如数字，例如排序，例如介词的位置等就得到了一个类别的特征。

样本的质量的好坏和样本的区间的大小直接影响到未来的识别能力和误差。例如样本是有偏差，那么可以想像识别的结果是不可能无偏的，样本的大小和含盖的范围也是非常重要的，我下面举一个例子说明：

我们找到50个苹果和50李子个给我们的机器看，告诉我们的机器这50个东西是苹果，那50个是李子。

情况分成这样的：
如果这50个苹果全部是红的，而50个李子有红有绿，那么当我们又拿出一个计算机完全没有见到过的绿苹果的时候，计算机将非常可能将这个绿苹果判断成李子。因此，样本要无偏。

又比如，我只给计算机看了5个苹果，有大有小，有红有绿，然后拿出一个全新的苹果给计算机看，计算机可能也是无法判断，因为学习的样本太少。

样本-> 学习 -> 检验 -> 纠偏 -> 学习 -> 检验 .... 这个是分类和识别一直要进行的一个过程，直到能够完全的认识人类的知识前，计算机的模糊识别恐怕都有改进的余地。

上一篇: 再说机器新闻的分类和聚类

下一篇: Larbin 一种高效的搜索引擎爬虫工具

文章来自: 本站原创

引用通告: 查看所有引用 | 我要引用此文章

Tags: 搜索引擎研究

相关日志:

评论: 0 | 引用: 0 | 查看次数: 2817

发表评论

昵　称:	记住我的信息
密　码:	游客发言不需要密码.
邮　箱:	邮件地址支持Gravatar头像,邮箱地址不会公开.
网　址:	输入网址便于回访.
内　容:	正在加载编辑器...
验证码:	点击获取验证码
选　项:	禁止表情转换禁止自动转换链接禁止自动转换关键字

虽然发表评论不用注册，但是为了保护您的发言权，建议您注册帐号. 字数限制 1000 字 \| UBB代码开启 \| [img]标签关闭