lucheng918的个人博客分享 http://blog.sciencenet.cn/u/lucheng918

博文

数据挖掘——分类

已有 2606 次阅读 2014-3-24 11:39 |个人分类:data mining|系统分类:科研笔记

缺失值处理:EM算法

分类:

single task learning

naive bayes

support vector machine(SVM)

least square svm(LS-SVM)

multiple task learning

multiple label classification(如图像标注、文档标注:每个文档属于多个类,先建一个分类model,再对新文档分类


文本分类:

每个类在坐标系上都有自己的位置,在进入一个新文本时,根据它的坐标就可以在坐标系上找到自己的位置。也就被分好了类。

用途:主题判断Labels=TOPICS

情感分析 LABELS=OPINION

姓名消歧LABELS=AUTHORS

词性标注Part of speech (Noun、verb、adjective)

前提:document   label:人工标注得到

topic model:如果没有lable,就用这种方法。

监督分类方法:通过label进行分类的方法,都是监督分类方法。

非监督:聚类

如何判断从一个文档集合中提出的model是优是劣?

首先,将已标注label的文档集合分为两个,training set 和 validate set;计算training set 中的model,将其标注validate set得到的label与validate set 自身的label进行比较,这样可以计算一个标注准确率。

缺点:validate set的标注难度对结果影响太大。

k-fold cross validation交叉验证:首先将其随机分成十块,每次拿一块,剩余的计算model,然后将其与拿出的那块进行验证,可以得到十个model,对f值取平均。 这个用来选参数。最终计算model还是用总的进行计算model,来进行预测。

LOO:leave one out。仅留下一篇文档作为测试,其余的构建model,以此来选参数。但是计算量太大。

f值:

multi-label:需要的文档特别多。

bayes流派:概率

SVM流派:

bayes model:如麻省的SCI论文生成器。

全概率公式

P(A)=P(A|B1)*P(B1) + P(A|B2)*P(B2) + ... + P(A|Bn)*P(Bn).

naive bayes :条件概率最大


SVM:找到一条线将两者分类。这个线究竟代表什么呢?

(1)找一条线,使margin最大,即最大超平面

(2)使用kernal function进行映射,升维,就可以进行分类。


kernal function 可以做映射,进行升维。

IBM kernal

高斯 kernal function

lib SVM:LIBSVM是台湾大学林智仁(Lin Chih-Jen)副教授等开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包,他不但提供了编译好的可在Windows系列系统的执行文件,还提供了源代码,方便改进、修改以及在其它操作系统上应用;该软件对SVM所涉及的参数调节相对比较少,提供了很多的默认参数,利用这些默认参数可以解决很多问题;并提供了交互检验(Cross Validation)的功能。该软件包可在http://www.csie.ntu.edu.tw/~cjlin/ 免费获得。该软件可以解决C-SVM、ν-SVM、ε-SVR和ν-SVR等问题,包括基于一对一算法的多类模式识别问题。继承了三种kernal。


参考:SVM light


参数:SVM,kernal不必关心;交叉验证


书籍推荐:邓南阳 SVM










https://wap.sciencenet.cn/blog-780964-778725.html

上一篇:正交矩阵
下一篇:libsvm
收藏 IP: 168.160.23.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-22 02:30

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部