最近,美国《科学》杂志刊出了一篇论文《 Clustering by fast search and find of density peaks 》(原文链接为:http://www.sciencemag.org/content/344/6191/1492.full.html),论文的主要思想有两个: 对于数据聚类,聚类中心应该位于数据密度分布高的区域,即类与类(cluster)之间应该有一个数据密度分布很低的地 ...
Minimizes augmented error, where the added regularizer effectively limits model complexity. 1. Model Selection Problem 机器学习需要太多的选择,如迭代次数,学习率的大小,损失函数,正则化参数等等。 我们的终极目标是选择能够使$E_{out}$最小的分类器,但实际上不可行。 那么,我们可以转而 ...
由于高维映射使得VC维增加,此时,若数据样本个数N有限时,就容易造成过拟合(Overfitting)。 1. What is Overfitting? Overfitting 产生的原因(老师举了驾车的例子): 2. The Role of Noise and Data Size 当数据样本有限(甚至比较少)时,简单模型比复杂模型性能更优! 3. D ...
这一讲主要介绍当数据线性不可分时,通过非线性映射将数据映射到高维特征空间,使得数据在高维特征空间是线性可分的,进而实现机器学习。 1. Quadratic Hypotheses 2. Nonlinear Transform The Nonlinear Transform Steps: Nonlinear Model via Nonlinear $\Phi$ + Linea ...
上一讲介绍了Logistic Regression以及其Cross-Entropy错误损失函数,另外还介绍了梯度下降算法。 这一讲主要介绍将线性模型用于分类问题,现有的线性模型有:线性分类、线性回归和Logistic回归。 1. Linear Models for Binary Classification linear scoring function: $s = w^T x$: for binary classificatio ...