||
缺失值处理:EM算法
分类:
single task learning
naive bayes
support vector machine(SVM)
least square svm(LS-SVM)
multiple task learning
multiple label classification(如图像标注、文档标注:每个文档属于多个类,先建一个分类model,再对新文档分类)
文本分类:
每个类在坐标系上都有自己的位置,在进入一个新文本时,根据它的坐标就可以在坐标系上找到自己的位置。也就被分好了类。
用途:主题判断Labels=TOPICS
情感分析 LABELS=OPINION
姓名消歧LABELS=AUTHORS
词性标注Part of speech (Noun、verb、adjective)
前提:document label:人工标注得到
topic model:如果没有lable,就用这种方法。
监督分类方法:通过label进行分类的方法,都是监督分类方法。
非监督:聚类
如何判断从一个文档集合中提出的model是优是劣?
首先,将已标注label的文档集合分为两个,training set 和 validate set;计算training set 中的model,将其标注validate set得到的label与validate set 自身的label进行比较,这样可以计算一个标注准确率。
缺点:validate set的标注难度对结果影响太大。
k-fold cross validation交叉验证:首先将其随机分成十块,每次拿一块,剩余的计算model,然后将其与拿出的那块进行验证,可以得到十个model,对f值取平均。 这个用来选参数。最终计算model还是用总的进行计算model,来进行预测。
LOO:leave one out。仅留下一篇文档作为测试,其余的构建model,以此来选参数。但是计算量太大。
f值:
multi-label:需要的文档特别多。
bayes流派:概率
SVM流派:
bayes model:如麻省的SCI论文生成器。
全概率公式
P(A)=P(A|B1)*P(B1) + P(A|B2)*P(B2) + ... + P(A|Bn)*P(Bn).
naive bayes :条件概率最大
SVM:找到一条线将两者分类。这个线究竟代表什么呢?
(1)找一条线,使margin最大,即最大超平面
(2)使用kernal function进行映射,升维,就可以进行分类。
kernal function 可以做映射,进行升维。
IBM kernal
高斯 kernal function
lib SVM:LIBSVM是台湾大学林智仁(Lin Chih-Jen)副教授等开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包,他不但提供了编译好的可在Windows系列系统的执行文件,还提供了源代码,方便改进、修改以及在其它操作系统上应用;该软件对SVM所涉及的参数调节相对比较少,提供了很多的默认参数,利用这些默认参数可以解决很多问题;并提供了交互检验(Cross Validation)的功能。该软件包可在http://www.csie.ntu.edu.tw/~cjlin/ 免费获得。该软件可以解决C-SVM、ν-SVM、ε-SVR和ν-SVR等问题,包括基于一对一算法的多类模式识别问题。继承了三种kernal。
参考:SVM light
参数:SVM,kernal不必关心;交叉验证
书籍推荐:邓南阳 SVM
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-5-22 02:30
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社