李小薪
图像处理与模式识别讨论班
2014-4-21 12:13
阅读:6169
标签:模式识别, 机器学习

如果你不能简单说清,那就是你还没有完全明白。
某个新的理论,若不是建立在连儿童都能理解的物理图景之上,那么它极有可能毫无价值。(附:爱因斯坦的宇宙.pdf

——阿尔伯特·爱因斯坦

关于讨论班的若干要求:

  1. 文字尽量用英文(课本中的原话),不要翻译;

  2. PPT用统一的模板(ppt模板);

  3. PPT中如果引用了课本上的公式,尽量给出公式编号;

  4. 在讲书本上的每个图时,一定要进行分析、比较,而不是单纯地告诉听众这个是beta分布,那个是高斯分布。


本学期要学习的教材

  1. Christopher M. Bishop, Pattern recognition and machine learning (PRML). 2006, New York:Springer. (.pdf, errata.pdf, Solutions to theExercises.pdf,PRML笔记.pdf, chp01.ppt, chp02.ppt, chp03.ppt, chp08.ppt)

  2. Dougherty, G., Pattern Recognition andClassification: An Introduction. 2013, New York: Springer.(.pdf, data.rar, code.rar)

  3. Kevin P Murphy, Machine Learning: a Probabilistic Perspective (MLaPP). 2012, MIT Press. (MLapp.pdf, code.rar)

讨论班报告记录

  1. 2014/03/08,Sat.,广C-616,讨论班,报告人:石丽(验证码识别.ppt)、蔡逸飞(图像修复.pptx)、梁浩然(深度学习.pptx)

  2. 2014/03/15,Sat.,广C-616,讨论班,报告人:吴烨(人脑神经纤维成像及三维重构研究.pptx)、蔡逸飞(图像修复(2).pptx, Criminisi.pdf, MinimumErrorBoundaryCut.pdf, PSO_Inpainting.pdf)

  3. 2014/04/09,Wed., 广C-515,大组讨论班,报告:模式识别的非参数方法.ppt

  4. 2014/04/16,Wed., 广C-515,大组讨论班,报告人:李泽界,讲:Sparse Subspace Clustering: Algorithm, Theory, and Applications (Elhamifar et al., 2013, TPAMI). The main idea is actually motivated by the famous paper: Robust face recognition via sparse representation (J.Wright et al., 2009, TPAMI), where the lables of the training data are assumed to beknown beforehand, and the priori information that the test sample y can be sparsely represented by the training ones from the same subspace of y are utilized for classification.For the clustering problem, the case is contrary. The lables of the training data are unkown. The sparse prior, again, is used to derive the lables. In this paper, Elhamifar et al. just used the sparse coefficient matrix C of the data Y to calculate the weights W between data points (corresponding to the weights W on the edges of the similarity graph), and then apply spectral clustering to the similarity graph. Therefore, sparse representation and spectral clustering are two key points of this paper. Unfortunately, none of them are clarified on the seminar.

  5. 2014/04/19,Sat., 广C-515,讨论班:石丽(Bayes决策论)和Mordekai( $\beta$ 分布)。

  6. 2014/05/04,Sun.,阴雨,广C-515蔡逸飞介绍高斯分布(Sec.2.3.1 ~ Sec.2.3.4),沈闻佳(Chp.1, 关于曲线拟合的总结),Mordekai(Chp.1,Sec.1.5 Decision Theroy). 

2014/05/11,Sun., 雨,广C-616,再次讨论: Sec. 2.3 The Gaussian Distribution

【主讲人】:高晨晖(Sec. 2.3, 引言部分)、史金专(Sec. 2.3.1~2.3.2)、姜海军(Sec. 2.3.3)、沈闻佳(Sec. 2.3.4,ppt)、李小薪(Sec. 2.3.5~2.3.7)

【报告评论】:大家都下了很多功夫准备,但沈闻佳的报告是最精彩的:清晰而严格地给出了高斯分布的均值和协方差的最大似然估计的计算过程,并对估计结果的有偏和无偏进行了严格地证明。第一次在讨论班上听到了同学如此严谨、如此清晰的报告,十分开心。《红与黑》的作者司汤达尔说:绝对清晰,是风格上的唯一的美。这难道不应该是我们要努力学习的吗?

【Review】:2.3.1~2.3.3,条件高斯分布和边缘高斯分布;2.3.4~2.3.6,高斯分布的参数估计:最大似然估计、最大似然的序贯(sequential)估计、Bayesian估计(inference);2.3.7,由高斯-Gamma分布(在对一元高斯分布的精度lambda进行估计时产生的分布)衍生出了学生t-分布;2.3.8 周期变量的高斯分布;2.3.9 混合高斯模型。

  1. Introduction:

    1. 高斯分布极其重要。因为它“arises in many different contexts and can be motivated from a variety of different perspectives”,例如:最大化熵的分布就是高斯分布,中心极限定理和二项分布等都与高斯分布有关);

    2. 证明多元高斯分布(2.43)是规范化的(从到的积分为1)。从高斯分布的几何形式(马氏距离)出发,重点讨论了协方差矩阵(马氏距离与欧式距离最大的差别就在协方差阵上),根据协方差矩阵关于其特征向量的展开式,把高斯分布的表达式从原始空间变换到了以协方差矩阵的特征向量为坐标轴的变换空间,从而,在此变化空间中,很容易地证明了多元高斯分布(2.43)的确是规范化的;

    3. 再来证明多元高斯分布的均值为mu,协方差为Sigma。这部分的证明用了重要的变换技巧z=x-mu,使得证明过程看起来十分简单、清晰;

    4. 最后,讨论了多元高斯分布的局限性,从而引出了latent/hidden variables、mixture of Gaussians、hierarchical models、probabilistic graphical models等概念。

  2. Conditional Gaussian distributions. 总体服从高斯分布,那么条件局部服从什么分布?也就是:已知 $p(x_a,x_b)" style="font-size:16px;$ ~ $\mathcal{N}(x|\mu,\Sigma)" style="font-size:16px;$ ,那么 $p(x_a|x_b)" style="font-size:16px;$ 服从什么分布?作者用一句话就证明了 $p(x_a|x_b)$ 是服从高斯分布的:From the product rule of probability, we see that this conditional distribution can be evaluated from the joint distribution $p\left( {{x_a},{x_b}} \right)$ simply by fixing x_b to the observed value and normalizing the resulting expression to obtain a valid probability distribution over x_a. 因为,由乘法准则: $p\left( {{x_a}|{x_b}} \right) = \frac{{p\left( {{x_a},{x_b}} \right)}}{{p\left( {{x_b}} \right)}}$ ,分母上的p(x_b)可以看做是为了规范化p(x_a|x_b)才需要的,因此,求解p(x_a|x_b)就相当于把p(x_a,x_b)视作关于x_a的函数(把x_b看做常数),然后再做个规范化。由于p(x_a,x_b)是高斯分布,那么,把p(x_a,x_b)看做关于x_a的函数时,也应该是高斯分布(这句话说的可能不大正确),因此,p(x_a|x_b)也是高斯分布。然后,基于这一结论,作者用了一个简单的技巧“complete the quare”,很容易就给出了 $p(x_a|x_b)" style="font-size:16px;$ 服从高斯分布)的均值和方差与 $\mu" style="font-size:16px;$ $\Sigma" style="font-size:16px;$ 之间的关系

  3. Marginal Gaussian distributions. 总体服从高斯分布,那么局部服从什么分布?也就是:已知 $p(x_a,x_b)" style="font-size:16px;$ ~ $\mathcal{N}(x|\mu,\Sigma)" style="font-size:16px;$ ,那么 $p(x_a)$ 服从什么分布?由于 $p\left( {{x_a}} \right) = \int {p\left( {{x_a},{x_b}} \right)d{x_b}}$ ,因此,只要把x_b积掉(integrate out)就可以得到p(x_a)了;再由p(x_a)的形式确定其均值和协方差。先看如何积掉x_b。这个积分看起来挺复杂的,但作者再一次向我们展示了如何化繁为简,思路是:先把联合分布式(2.70)中与x_b相关的式子拿出来,再用“complete the quare”的技术将其转换为类似于 ${\left( {{\rm{x}} - \mu } \right)^T}\Lambda \left( {{\rm{x}} - \mu } \right)$ 的高斯分布的二次式(2.84),然后利用高斯分布的积分为1,就很容易算得这部分积分。这里需要说明(2.84)式是如何得到的:


  4. Bayes’Theorem for Gaussian Variables. 已知p(x)和p(y|x)都服从高斯分布,且p(y|x)的均值是x的线性函数(linear Gaussian model),求p(y)和p(x|y)。其思路是:先利用p(x,y) = p(x)p(y|x)算得联合PDF,再利用边缘高斯分布的结论由p(x,y)计算p(y),用条件高斯分布的结论由p(x,y)计算p(y|x)。

  5. Maximum likelihood for the Gaussian. 详见沈闻佳的PPT

  6. Sequential estimation. 当样本数非常多时,高斯分布的最大似然估计是困难的,可以采用序贯方法。最大似然估计即:令似然函数 $L(\theta)$ 的导数为0,求得的解。Robbins-Monro算法给出了求解的一般公式: ${\theta ^{\left( N \right)}} = {\theta ^{\left( {N - 1} \right)}} - {a_{N - 1}}f\left( {{\theta ^{\left( {N - 1} \right)}}} \right)$ ,该算法将使 $f(\theta)$ 以概率1收敛于0.

  7. Bayesian inference for the Gaussian. 最大似然估计没有为参数的先验分布施加任何约束,本节阐述如何利用共轭先验,为高斯分布均值的估计、协方差的估计、均值和协方差的估计施加先验。均值的共轭先验,仍然是高斯分布;精度(协方差的逆)的共轭先验,是gamma分布(一元高斯)/Wishart分布;均值和精度的共轭先验是高斯-gamma分布。对于一元高斯分布,式(2.140)利用complete the square技术,给出了均值和方差的估计(对应于Exercise 2.38),下面给出具体的推导过程:

    首先,在似然函数中,关于 $\mu$ 的exp指数部分的标准的二次形式是:

    ,  (7.1)

    $\mu$ 的最大似然估计是,对应于二次形式中的一次项;精度对应于二次形式的系数:对于施加了先验约束 $p(\mu)$ $p(\mu|X)$ ,其指数部分可化为:

    下面给出如何将其化为标准的二次形式(这里需注意:是关于 $\mu$ 的二次式,不关心常数项):


    对照(7.1),可得:


    .

  8. Student’s t-distribution. 主要学习t-分布的鲁棒性,见p.104的Fig. 2.16,其代码实现见MLaPP的p.40的Fig. 2.8的实现代码:robustDemo.mMLaPP的代码从这里下载

2014/05/17,Sat., 小, 广C-616,讨论: Sec. 2.4 The Exponetial Family

姜海军主讲:The Exponetial Family;蔡逸飞讲:Fig. 2.16(robustDemo.m)。


                                                                 

                                                                                讨论班安排

时间

章节

主讲人

2014/05/17

星期6

Fig. 2.16robustDemo.m
代码从这里下载,MLapp.pdf

蔡逸飞

Sec. 2.3.8~2.3.9

姜晓睿

Sec. 2.4 Exponential Family

姜海军

Sec. 3.1 Linear Basis Function Models

朱娅妮

2014/05/24

星期6

Sec. 2.3.8~2.3.9

姜晓睿

Sec. 3.2 The Bias-Variance  Decomposition

高晨晖

Sec. 3.3 Bayesian Linear  Regression

史金专

Sec. 3.4 Bayesian Model  Comparison

石丽

 

 

 

 



转载本文请联系原作者获取授权,同时请注明本文来自李小薪科学网博客。

链接地址:https://wap.sciencenet.cn/blog-1338462-787050.html?mobile=1

收藏

分享到:

上一篇
当前推荐数:0
推荐到博客首页
网友评论2 条评论
确定删除指定的回复吗?
确定删除本博文吗?