科学网

 找回密码
  注册
一个分类模型的评估数据
李向东 2012-5-16 17:36
一个分类模型的评估数据
之前都是在小训练集上做的实验,当训练集较大时,MyEclipse总是报heap space错。修改.ini文件也不行。 后来,修改MyEclipse的run configuration中的arguments的VM arguments为-Xms500m -Xmx1024m,不再报错了。下面是运行结果(分类器是NaiveBayes)。结果不太理想(正确分类68.6%),有待改善。还有,似乎Ac ...
个人分类: weka|3076 次阅读|没有评论
不做特征选择,就不知道去停词的重要性
李向东 2012-5-10 21:01
之前,我曾经觉得不去停词也可以。这两天试做特征选择,才意识到去停词的重要性。 一个包含984个实例的中文文本训练集(含数字和英文字母单词等),竟然有3500多个特征,做一次Greedstepwise的特征选择用了14个小时还没有结果。 我决定必须去停词,而且打算使用大停词表。 处理如 ...
个人分类: weka|5071 次阅读|没有评论
Weka中的特征选择(Attribute selection)
李向东 2012-5-8 21:47
按照 http://weka.wiki.sourceforge.net/Use+Weka+in+your+Java+code 的说法,在使用 weka 进行分类时,其实没有必要在代码中直接使用特征选择类,因为已经有 meta-classifier 和 filter 可以进行特征选择。 Weka 里有个称为 AttributeSelectedClassifier 的带有特征选择的分类器,和一 ...
个人分类: weka|22500 次阅读|没有评论
基于weka的中文文本分类:对任意单个文本进行分类
李向东 2012-5-8 14:28
网上关于使用weka进行中文分类的文章很多了。这里只讨论一个具体的问题:已经有了一个训练集,也选用了一种分类器如NaiveBayes,并进行了训练得到了一个分类模型,那么对于任意一个中文文本现在如何使用那个分类模型进行分类呢? 这里的一个关键问题是,对一个单个文本进行量化(weka的术语是filter,即过滤 ...
个人分类: weka|8829 次阅读|没有评论
Weka中文文本分类示例
热度 1 李向东 2012-5-7 15:31
根据屈伟博客 编写。 原文 http://quweiprotoss.blog.163.com/blog/static/40882883201103051150347/ 第零步,准备你需要的工具, weka.jar , lucene-core.jar , IKAnalyzer.jar ,把它们加到工程中。分词包你喜欢用什么自己选,不 ...
个人分类: weka|9557 次阅读|2 个评论 热度 1

本页有 1 篇博文因作者的隐私设置或未通过审核而隐藏

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-24 21:22

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部