科学网—lixiangdong的博文 - 第2页

设为首页收藏本站

开启辅助访问切换到宽版

科学网 › 我的中心 › 博文 › lixiangdong的博文

lixiangdong

https://wap.sciencenet.cn/?713110

weka| 逆向工程| 科学新闻| 文化教育| 高中数学| 无线通信| 论文发表| 海外职位| iBT与SAT| 网络安全| 机器学习|

一个分类模型的评估数据: 李向东 2012-5-16 17:36; 之前都是在小训练集上做的实验，当训练集较大时，MyEclipse总是报heap space错。修改.ini文件也不行。后来，修改MyEclipse的run configuration中的arguments的VM arguments为-Xms500m -Xmx1024m，不再报错了。下面是运行结果（分类器是NaiveBayes）。结果不太理想（正确分类68.6%），有待改善。还有，似乎Ac ...; 个人分类: weka|3076 次阅读|没有评论

不做特征选择，就不知道去停词的重要性: 李向东 2012-5-10 21:01; 之前，我曾经觉得不去停词也可以。这两天试做特征选择，才意识到去停词的重要性。一个包含984个实例的中文文本训练集（含数字和英文字母单词等），竟然有3500多个特征，做一次Greedstepwise的特征选择用了14个小时还没有结果。我决定必须去停词，而且打算使用大停词表。处理如 ...; 个人分类: weka|5071 次阅读|没有评论

Weka中的特征选择(Attribute selection): 李向东 2012-5-8 21:47; 按照 http://weka.wiki.sourceforge.net/Use+Weka+in+your+Java+code 的说法，在使用 weka 进行分类时，其实没有必要在代码中直接使用特征选择类，因为已经有 meta-classifier 和 filter 可以进行特征选择。 Weka 里有个称为 AttributeSelectedClassifier 的带有特征选择的分类器，和一 ...; 个人分类: weka|22500 次阅读|没有评论

基于weka的中文文本分类：对任意单个文本进行分类: 李向东 2012-5-8 14:28; 网上关于使用weka进行中文分类的文章很多了。这里只讨论一个具体的问题：已经有了一个训练集，也选用了一种分类器如NaiveBayes，并进行了训练得到了一个分类模型，那么对于任意一个中文文本现在如何使用那个分类模型进行分类呢？这里的一个关键问题是，对一个单个文本进行量化（weka的术语是filter，即过滤 ...; 个人分类: weka|8829 次阅读|没有评论

Weka中文文本分类示例: 热度 1 李向东 2012-5-7 15:31; 根据屈伟博客编写。原文 http://quweiprotoss.blog.163.com/blog/static/40882883201103051150347/ 第零步，准备你需要的工具， weka.jar ， lucene-core.jar ， IKAnalyzer.jar ，把它们加到工程中。分词包你喜欢用什么自己选，不 ...; 个人分类: weka|9557 次阅读|2 个评论热度 1

本页有 1 篇博文因作者的隐私设置或未通过审核而隐藏

会议

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-24 21:22

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部