科学网

 找回密码
  注册
2012年 一本高校 河南理科投档线 排名
热度 1 李向东 2012-7-22 15:52
   院校代号 院校名称 计划 实际投档人数 投档最低分 语文 数学 外语 1115 清华大学 69 80 668 111 132 137 1105 北京大学 26 26 666 129 125 139 1106 北京大学医学部 28 34 656 118 13 ...
个人分类: 文化教育|5478 次阅读|1 个评论 热度 1
WEKA的分类模型文件model中包含哪些内容
李向东 2012-6-1 14:06
WEKA的分类模型文件model中包含哪些内容
在 weka 中可以使用分类器对训练集训练得到分类模型,并存入 model 文件: Instances data=… //from somewhere // train NaiveBayes and output model NaiveBayes classifier = new NaiveBayes(); classifier.buildClassifier(data); ...
个人分类: weka|6004 次阅读|没有评论
使用DataSource和DataSink
李向东 2012-5-24 09:19
weka中有许多实现数据格式转换的工具,都包含在weka.core.converters包中。 其中的DataSource和DataSink最值一提。 原来我们这样写: BufferedReader reader = new BufferedReader(new FileReader(trainsetfile)); ArffReader arff = new ...
个人分类: weka|4577 次阅读|没有评论
使用独立测试集对分类模型进行评估
李向东 2012-5-23 15:09
这两天还是纠结于分类模型的准确率。因为对从网上随机摘录的文本进行分类时,结果总是不甚理想,不像使用cross-validation得到的结果那么好。 于是决定使用独立测试集(含1402个实例)进行评估。训练集实例9804个,特征9302个,没有使用特征选择。准确率大约78%,其中“历史”和“艺术”有点分不清。结果如下 ...
个人分类: weka|5768 次阅读|没有评论
weka中使用TFIDF进行特征选择
热度 1 李向东 2012-5-21 17:53
我首先对训练集进行了中文分词处理,在不做特征选择的情况下,只进行向量化处理: weka.filters.unsupervised.attribute.StringToWordVector in:9804 Number of instances: 9804 Number of attributes: 9302 产生的arff文件大约30M. 使用TFIDF进行特征选择,仍然使用这个训练集,代码很简单:   ...
个人分类: weka|10834 次阅读|1 个评论 热度 1

本页有 5 篇博文因作者的隐私设置或未通过审核而隐藏

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-25 11:56

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部