田里橙子分享 http://blog.sciencenet.cn/u/JRoy 我爱生命,更爱生活

博文

为何要融合Mixture?

已有 882 次阅读 2021-8-15 21:18 |个人分类:科研笔记|系统分类:科研笔记

物理世界不确定性描述的两大载体:变量,模型。


现实世界不可知的变量的不确定性往往用noise建模,如系统噪声、量测噪声等。

而不确定的模型或者假设往往混合mixture形式来表达,仅就状态估计领域而言,典型的例子包括

  1. 高斯混合 Gaussian mixture 

  2. 多模型 Multiple model 包括知名的交互多模型IMM

  3. 多假设跟踪器 Multi-hypothesis Tracker (MHT)

  4. 蒙特卡洛Monte Carlo方法,也称Particle method,实则particles的mixture

  5. 当前随机有限集统计学框架下的 多伯努利混合 Multi-Bernoulli Mixture(MBM),广义标签多伯努利Generalized labelled Multi-Bernoulli (GLMB)等

另外也包括一些更具有针对性/特殊性的混合mixture模型,如Watson mixture, inverted Beta mixture, von-Mises Fisher mixture model ,以及复合型混合:Gaussian-Student's-t mixture,Gaussian-uniform mixture等。


这似乎有点蛮力:不确定是哪个,那就多个一起上,瞎蒙也能蒙对一个吧。可以说,Mixture在复杂问题或者数据建模中获得了极大的成功,绝对的扛把子!这种mixture的核心是用一组(可能是大量甚至穷举,穷举高斯分布叫高斯过程,Gauss Process了)模型/分布的加权平均来尽可能近似表达需要的模型/数据。蛮力,好使!

$f_\text{AA}(\mathbf{X}) = \sum_{s=1}^{S} {w_s}f_s(\mathbf{X})$

其中$\mathbf{w} = [w_1, w_2, ..., w_S]^\mathrm{T}$ 是非负混合/融合权重,往往归一化处理 $\mathbf{w}^\mathrm{T}\mathbf{1} = 1$, $f_s(\mathbf{X}), s=1,2,\cdots,S$ 是单个融合源分布或者模型,一般属于同一族或者同一类型。 


大道至简。最新国际上诸多研究发现,这种加和形式的多模型/多分布加权平均(Arithmetic average,AA)也提供了一种优良的多源信息融合方法,即AA fusion,展现了优越的性能,特别是借助强大的网络一致性Consensus研究如虎添翼。虽然变量或者参数估计的加权计算司空见惯(如经典的consensus主要就是针对变量),但是后验分布的加权平均,并不符合贝叶斯概率框架套路(状态估计的主流理论),而鲜有人问津 ---- 这种线性加法运算也太过naive了,贝叶斯起步价也是积分、乘积运算啊。但是近年来,特别是在分布式多源多目标信息融合领域的实际实现和效果却有悖于之前先入为主的常识(见文末相关博文),而且获得了越来越多的理论支撑:快刀斩乱麻,好用是王道


线性融合为复杂的多源多目标信息融合提供了一个优越的解决方案!能够应对未知复杂关联,计算高效、稳定,对漏检和错误数据鲁棒,与mixture模型结果完美结合,计算闭合:一群羊+一群羊,还是一群羊(这一点对于时序状态估计至为关键啊,就像飞镖一样,飞出去还得飞回来才行啊,才能愉快玩耍)。概率分布的AA融合得到的就是Mixture,Mixture的核心是对组成部分的AA融合。单机下mixture/AA都这么跩,多源信息融合中mixture/AA也大放异彩,未来在更广阔的领域可期!


事实上,mixture/AA模型也与神经网络neuron network(NN)有着内在关联(NN可看作大量神经元的mixture混合工作机制),也在siri等人工智能产品中得到开发应用(mixture density network)。


AA融合方法技术发展领先于理论,且是华人开道(^_^...你懂的,在说谁....)。除了实战中普遍的好评外,mixture /AA 的 信息学理论依据何在?mixture/AA相比混合中的成员(单一模型或者分布)如何?换句话说:为何要用mixture融合?(比如一个直观的问题:如果不能得到更好的结果,一个好的成员为何要和要去和一个不好的融合呐;总不能 越容越差、越混越惨吧?)


如此核心的问题似乎还没有公开的答案。以下短文尝试回答,就问你动不动心吧!


T.Li (2021), Why Mixture? - techrxiv.org. DOI: 10.36227/techrxiv.15082113 

主要结论:

  • The average of the mixture fits the target distribution $g(\mathbf{X})$ better than all component distributions on average.

$ D_\text{KL}\left({f_\text{AA}}\| g\right)  = \sum_{s=1}^{S} {w_s} \big( D_\text{KL}({f_s}\| g)  - D_\text{KL}( {f_s}\| f_\text{AA}) \big) $

$ \hspace{2.8cm} \leq \sum_{s=1}^{S} {w_s} D_\text{KL}({f_s}\| g)$


  • When the fusing weights are properly designed, the average of the mixture may fit the target distribution better than the best component.

$D_\text{KL}({f_s}\| p) < D_\text{KL}({f_i}\| p)$, $\forall i \neq s$ 并不保证$w_s =1, w_i=0, \forall i \neq s$ 

(本人还在研究具体什么的场景可以保证,什么样的场景一定不能)


AA融合/Mixture建模 相关博文

0-1:减免通信延时的分布式实时滤波

多源信息融合的Best Fit of Mixture原则

基于算术均值一致性的高效、分布式、联合传感定位与多目标跟踪

基于算术均值一致性的分布式伯努利滤波目标联合探测与跟踪

多目标信息融合问题

并行一致性:网络通讯与节点滤波计算同步进行!

通讯量最小的分布式多目标跟踪器

基于多传感器观测聚类的鲁邦多传感器PHD滤波

分布式网络信息共享:Many Could Be Better Than All





http://wap.sciencenet.cn/blog-388372-1299920.html

上一篇:0-1:减免通信延时的分布式实时滤波

7 杨正瓴 武夷山 谢力 魏焱明 汤茂林 张鹰 陆泽橼

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-10-22 12:20

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部