博文

概率密度线性融合的理论基础精选

已有 5492 次阅读 2022-10-16 23:18 |个人分类:科研笔记|系统分类:论文交流

物理世界不确定性描述的两大载体：变量，模型。

现实世界不可知的变量的不确定性往往用noise建模，如系统噪声、量测噪声等。而不确定的模型或者假设往往混合mixture形式来表达，仅就状态估计领域而言，典型的例子包括

高斯混合 Gaussian mixture
多模型 Multiple model 包括知名的交互多模型IMM, （或者更广泛的Bayesian Model Averaging, BMA）
多假设跟踪器 Multi-hypothesis Tracker （MHT）
蒙特卡洛Monte Carlo方法，也称Particle method，其中每个particle看成一个Dirac delta function
当前随机有限集统计学框架下的多伯努利混合 Multi-Bernoulli Mixture（MBM），广义标签多伯努利Generalized labelled Multi-Bernoulli （GLMB）等

另外也包括一些更具有针对性/特殊性的混合mixture模型，如Watson mixture， inverted Beta mixture, von-Mises Fisher mixture model ，以及复合型混合：Gaussian-Student's-t mixture，Gaussian-uniform mixture等。

这似乎有点蛮力：不确定是哪个，那就多个一起猜：应该总有一个是对的。可以说，Mixture在复杂问题或者数据建模中获得了极大的成功，绝对的扛把子！这种mixture的核心是用一组（可能是大量甚至穷举，穷举高斯分布叫高斯过程，Gauss Process了）模型/分布的加权平均来尽可能近似表达需要的模型/数据。蛮力，好使！

$f_\text{AA}(\mathbf{X}) = \sum_{i \in \mathcal{I}} {w_i}f_i(\mathbf{X})$

其中$\mathbf{w} = [w_1, w_2, ..., w_{|\mathcal{I}|}]^\mathrm{T}$ 是非负混合/融合权重，往往归一化处理 $\mathbf{w}^\mathrm{T}\mathbf{1} = 1$, $f_i(\mathbf{X}), i \in \mathcal{I}$ 是单个融合源分布或者模型，一般属于同一族或者同一类型，也可以不同类，那就是异构混合。

大道至简。

最新国际上诸多研究发现，这种加和形式的多模型/多分布加权平均（Arithmetic average，AA）也提供了一种优良的多源信息融合方法，即AA fusion，展现了优越的性能，特别是借助强大的网络一致性Consensus研究如虎添翼。虽然变量或者参数估计的加权计算司空见惯（如经典的consensus主要就是针对变量），但是后验分布的加权平均，并不符合贝叶斯概率框架套路（状态估计的主流理论），而鲜有人问津 ---- 这种线性加法运算也太过naive了，不够贝叶斯。但是近年来，特别是在分布式多源多目标信息融合领域的实际实现和效果却有悖于之前先入为主的常识（见文末相关博文），而且获得了越来越多的理论支撑：快刀斩乱麻，好用是王道。

线性融合为复杂的多源多目标信息融合提供了一个优越的解决方案！能够应对未知复杂关联，计算高效、稳定，对漏检和错误数据鲁棒，与mixture模型结果完美结合，计算闭合：一群羊+一群羊，还是一群羊（这一点对于时序状态估计至为关键啊，就像飞镖一样，飞出去还得飞回来才行啊，才能愉快玩耍）。概率分布的AA融合得到的就是Mixture，Mixture的核心是对组成部分的AA融合。单机下mixture/AA都这么跩，多源信息融合中mixture/AA也大放异彩，未来在更广阔的领域可期！

事实上，mixture/AA模型也与神经网络neuron network（NN）有着内在关联（NN可看作大量神经元的mixture混合工作机制），也在siri等人工智能产品中得到开发应用（mixture density network）。

AA融合方法技术发展领先于理论，且是华人开道引领。除了实战中普遍的好评外，mixture /AA 的信息学理论依据何在？mixture/AA相比混合中的成员（单一模型或者分布）如何？换句话说：为何要用mixture/AA融合？这就需要回答几个估计与融合基础问题，从而理解方法性能的本质：

融合收益：对比AA融合前后估计统计性能指标包括：1.1 MSE精度怎样？1.2Information-divergence to the truth怎样？显然如果不能得到更好的结果，一个好的成员为何要和要去和一个不好的融合呐...
AA融合方法是否拥有哪种收敛性或者估计的一致性Consistency？
更具体，如何针对类型众多的随机有限集滤波器建立统一的推导框架? 从而确保上面的MSE与Information-divergence增益，以及收敛或Consistency属性能够严格保留。
针对真实分布未知的一般问题，如何设计AA融合权重？

针对以上问题，以下两篇姊妹篇论文尝试解答：

1. T. Li*, Y. Song, E. Song and H. Fan, Arithmetic Average Density Fusion- Part I: Some Statistic and Information-theoretic Results, IEEE Trans. Signal Process, under review, 预印版 arXiv:2110.01440v3. AA融合姊妹篇-1 ：AA融合基本的统计学与信息学属性，以及首次提出：AA-Kalman Filter

2. T. Li*, Arithmetic Average Density Fusion- Part II: Unified Derivation for (labelled) RFS fusion, IEEE Trans. Signal Process, under review, 预印版；构建不同类型RFS滤波统一AA融合框架以及分析了其合理性（PHD-consistency）

arXiv:2209.10433

主要结论：

The average of the mixture fits the target distribution $g(\mathbf{X})$ better than all component distributions on average.

$ D_\text{KL}\left({f_\text{AA}}\| g\right) = \sum_{i \in \mathcal{I}} {w_i} \big( D_\text{KL}({f_i}\| g) - D_\text{KL}( {f_i}\| f_\text{AA}) \big) $

$ \hspace{2.8cm} \leq \sum_{ i \in \mathcal{I}} {w_i} D_\text{KL}({f_i}\| g)$

When the fusing weights are properly designed, the average of the mixture may fit the target distribution better than the best component.

$D_\text{KL}({f_j}\| p) < D_\text{KL}({f_i}\| p)$, $\forall i \neq j$ 并不保证$w_j =1, w_i=0, \forall i \neq j$

（具体什么的场景可以保证，什么样的场景一定不能，还有待进一步研究）

A diversity-preference, suboptimal fusing weight is given by the following maximization problem

$ \mathbf{w}_\text{subopt} = \arg\max_{\mathbf{w} \in \mathbb{W}} \sum_{i \in \mathcal{I}} w_i D_\text{KL}( {p_i}\| p_\text{AA}) \label{eq:entropyMax1} $

For a set of unbiased estimators that are conditionally independent to each other, the AA fusion gains better accuracy in the sense that

$\mathrm{MSE}_{\mathbf{\hat{x}}_\mathrm{AA}} = \sum_{i \in \mathcal{I}} w_i^2 \mathrm{MSE}_{\mathbf{\hat{x}}_i}$

If using $w_i= \frac{1}{| \mathcal{I}|}, \forall i \in \mathcal{I}$, it reduces to

$ \text{MSE}_\text{AA} \leq \frac{1}{| \mathcal{I}|} \max\{\text{MSE}_i\}_{i \in \mathcal{I}} $

the consistency of the AA fusion is indicated by, for all $\varepsilon>0$,

$ \lim_{I\rightarrow\infty} \text{Pr}[\text{MSE}_\text{AA} >\varepsilon]=0 $

All (labeled) RFS filters can be derived strictly from the (labeled) PHD-AA formualtion, which ensures PHD consistency as long as the (labeled) PHD estimates of all fusing filters are unbiased and (at least partially) conditionally independent.

$D_{\text {AA}}(\mathbf{x}) = \sum\limits_{i \in {\mathcal{I}}} {{w_i}{D_i}({X})}$

AA融合/Mixture建模相关博文

0-1：减免通信延时的分布式实时滤波

多源信息融合的Best Fit of Mixture原则

基于算术均值一致性的高效、分布式、联合传感定位与多目标跟踪

基于算术均值一致性的分布式伯努利滤波目标联合探测与跟踪

多目标信息融合问题

并行一致性：网络通讯与节点滤波计算同步进行！

通讯量最小的分布式多目标跟踪器

基于多传感器观测聚类的鲁邦多传感器PHD滤波

分布式网络信息共享：Many Could Be Better Than All

转载本文请联系原作者获取授权，同时请注明本文来自李天成科学网博客。
链接地址：https://wap.sciencenet.cn/blog-388372-1359702.html

上一篇：0-1：减免通信延时的分布式实时滤波