吴超
吴超:安全科学方法系列169:基于数理统计的预测方法
2024-6-25 09:19
阅读:346

吴超:安全科学方法系列169:基于数理统计的预测方法

数理统计中经常遇到的资料可以分为计量的、计数的、有序的和名义的四类,这四类指标或四类资料,也可以粗分为两类:定量的(计量的和计数的)、定性的(有序的和名义的)。对事故进行统计,也需要运用数理统计的相关理论和方法对资料进行分析整理。将统计分析方法运用于安全领域,特别是进行事故分析的实例还不是很多,对事故统计方法进行专门论述的论文、专著和基于数理统计理论的事故统计方法的研究也较少。借鉴统计方法在公共卫生流行病和传染病学、环境科学、企业管理等领域的应用实例,针对事故统计过程的特点,总结出以下若干可用于事故研究的统计分析方法,并分别对其原理和用途等进行了简单阐述。基于数理统计理论的统计分析方法见表1。

1  可用于事故统计预测分析的方法归纳

名称

定义

对象或分类

原理简介

用途

优点

空间自相关方法

研究空间中,某空间单元与其周围单元空间,就某种特征值,进行空间自相关性程度的计算,以分析这些空间单元在空间分现象的特性的统计分析方法

两个或者多个属性变量之间的相互关系及关联程度;同一属性值在不同空间位置上的相关关系及关联程度

根据局域型Getis相关公式,由Gi(d)值判断热点区域,Gi(d)越大也就表示事故情况在该热点区域附近有某种扩散效应,揭示了某事故在该区域附近发生了聚集,即所谓的热点区域,该片区应为重点防控区域,也可在一定程度上有效揭示某些事故发生的原因或者危险因子,进一步提供防控依据

探讨某些事故发生的聚居性,并进行一些热点的分析,可以为现象的防控提供一定的线索和理论依据。运用于事故统计,可得出某一事故在某一领域或生产场所中的扩散效应,进而统计出该事故发生的概率、普遍程度及容易发生的环境,以便对其进行防治和控制

可同时满足独立性和大样本两个假设,可以用图形示意区域集聚事故的类型,而且还可用一些量化指标,解释区域的事故发生的空间格局

主成分分析法,又称中分量分析

把多个指标化为少数几个综合指标的一种多元统计分析方法

考察多个数值变量间相关性,它是研究如何通过少数几个主成分来解释多变量的方差协方差结构。通过导出几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间不相关

主要思路为将原有一组问题中P维随机变量通过数学方法把其线性组合成P个互不相关的新变量。采取降维方法,找出几个综合因子来代表原来的众多变量,使这些综合因子尽可能地反映原来的变量信息,且彼此间不相关,更典型地显示出研究对象的特征;还可以进一步利用主成分进行聚类分析;也可以利用主成分作回归因子进行回归分析

在信息损失量很小的情况下,将多个指标综合成一个新指标,获得一个可量化评价研究对象状态的指标,并可采用该指标的固定数值作为研究对象是否会发生事故的判断依据,②针对不同事故类型确定相应指标,建立起针对研究对象的事故类型的统计方法,有利于对其进行状态监测、故障诊断,及时发现事故,进行处理

消除了主观因素对评价的影响成分,因而更具有客观性。得到的综合评价指标可进行定量评价,也可为在线监测提供依据。是简化数据结构的一种常用分析法

灰色统计法

实质上是一种白数的灰化处理

小样本贫信息、不确定性为研究对象

以灰数的白化函数生成为基础,将一些具体数据按某种灰数所描述的类别进行归纳整理,判断统计指标所属的灰类

鉴别系统因素之间发展趋势的相似或相异程度,即关联度分析,并通过对原始数据的生成处理,建立相应的微分方程模型,以寻求系统变动的规律,探讨事物发展的未来趋势和未来状况

具有可操作性强、分辨率高等优点,通过建立影响事故发生的核心指标,对事故进行统计分析

聚类分析法

研究(样品)分类问题的一种多元统计方法

按原理划分,传统上有两种聚类方法:层次聚类法和非层次聚类法;按照分类的目的可以分为指标聚类(R型聚类)和样品聚类(Q型聚类)两大类

输入一组未分类的记录,且事先不知道要分成几类,通过分析数据,确定每个记录所属的类别,把相似性大的对象聚集为一个类。聚类的标准是使类内相似度尽可能大、类间相似度尽可能小。

用于统计数据或样品的分类;用来寻找某一场所或领域可能发生的事故的分类,进行事故分析并定量阐明各类事故间的相互关系

优点:是在没有先验知识的情况下进行分类的,具有相当的科学性和客观性。

缺点:①如果数据数偏少会影响归纳的精确性,②不能确定到底该分成几类比较合适,中间需介入主观因素,凭借经验来确定合理的类别数。③是对指标进行单一归类,不能使同一指标在不同类中体现出来,不能确定各个影响要素在事故发生中的贡献度以及要素之间的组合规律

因子分析

非线性的多元分析方法

因子分析模型中公因子彼此间如果不相关,则称为正交模型;公因子彼此间如果相关则称为斜交模型

可以看作是主成分分析的推广,目的是在所有能测量的变量中,根据这些变量内部的相关性大小将变量分组,每一组引入一个因子来归纳分组后某一方面性质,称为公因子。因此,因子分析中的因子通常是一个不能直接测量的而且具有综合意义的隐变量

可以分析因子间的相关关系和某些指标的特性因子间存在相关关系;可用于寻找统计事故的一个综合指标

是建立在数据正态假设的基础上,如果偏离正态假设,结果可能产生畸变。因此应当做一些基于多中心、大样本、前瞻性基础上的调查;②由于因子分析解常常是根据一个样本计算得到的,有必要在原有总体中再抽取几个样本。只有从各个样本的数据出发得到的因子结构都比较一致,因子分析解才是有意义的

判别分析

用于判别个体所属群体的一种多元统计方法

判别分析方法有许多种:用于计量资料的有Fisher判别法、Baves判别及逐步判别分析法等;用于计数资料的主要有最大似然法、训练迭代法等

根据已掌握的每个类别的若干样本的数据信息,总结出客观事物分类的规律性,先在某种最优意义下建立判别公式和判别准则当遇到新的样本时,根据总结出来的判别公式和判别则,就能判别该样本所属的类别。

用于判别个体所属群体;在事故统计分析中,可建立判别式判断事故所属类型

该研究的先验判别方程大多建立于历史经验基础之上,多是个人体验、专家经验、小样本临床总结等,夹杂很多主观性和经验性的成分,故由此建立的方程的最优化值得商榷,非优化建立的函数式显然不能成为最好的标准。这也是以前辨证规范研究多、真正实用少的原因之一

Logistic回归分析

实际上是属于判别分析

(同上)

目前常使用Logistic曲线拟合S型曲线,求出每个变量的显著性检验,计算比值比

更多的是用于因素分析

判别效果一般不如判别法。主要优点是可以求出每个变量的显著性检验,很容易计算比值比。

理论上的不足:(1)模型本身有不合理性。(2)对线性可分的样本不宜使用Logistic回归。(3)样本数量不宜太少

隐类分析

基本思想是用电脑来取代人脑进行数据分析、构造隐结构。

 

确定事故与现象之间的关系,然后用数学方法来验证。适用于无法直接观测的隐变量分析

具体方法是:首先收集病例,然后用计算机对所得数据进行分析,找出规律,并且构造隐结构模型来解释这些规律,最后用所得的隐结构模型来指导辨证

应用于事故分类,判断事故的诊断标准

适用于隐变量的分析;然而隐类分析的隐类模型只包含一个隐变量,但是事故分析大多涉及众多隐变量,必须对其进行必要的推广

多层隐类分析模型,简称HLC模型

HLC模型同时看成是隐类分析和进化树

(phylogenetic tree)的一种推广

确定事故与现象之间的关系,然后用数学方法来验证。其假设为:它的网络结构是一棵有根树叶节点全部是显变量,而内节点全部是隐变量。模型中的隐变量及它们之间的关系形成一个隐结构

具体步骤:先利用爬山法从单层LC模型开始进行搜索,在搜索的每一步,对当前模型进行修改,获得一系列候选模型,然后优化其中隐变量的势并估计其参数,得到一个候选模型,再计算每一个候选模型的评分并选择分数最高的作为下一步搜索的出发点。搜索如此循环进行,直到通过修改当前模型无法再找到评分更高的模型为止

用于研究一些无法直接观测现象的统计分析,在数据分析的基础上,构造隐结构指导辩证;可用于判断事故的诊断标准

可推广的涉及众多隐变量的隐类分析

实验数据统计方法

是一种基于完全样品的统计方法

实验数据统计方法通常有正态分布;三参数Weibull分布;两参数Weibull分布;极小值分布;极大值分布;指数分布等方法;数据处理的图解法 (如威布尔概率值)和解析法(如极大似然估计)

选用统计方法处理寿命数据时,要检验寿命数据属于何种类型,然后采用相应的统计方法进行数据处理,基于特征值的可靠性统计并归一化处理

所有观察的寿命数据是独立同分布(IID)的前提下,应用统计分析技术处理可靠性数据,对数据进行趋势检验和统计、模型检验,然后采用相应的统计模型进行数据处理,以获得正确的数据

多是基于完全样品的情况下得到的,处理有删失的寿命数据将得到不正确的结果

疲劳寿命分布参数计方法

随机模糊统计方法

包括随机模糊均值和方差,以及随机模糊概率分布的估计等

疲劳寿命是同时包含有随机不确定性和模糊不确定性的随机一模糊变量。试验的样本值是随机一模糊样本值,即要求随机一模糊样本值的概率数字特征均值和方差

可用来建立疲劳寿命分布的随机一模糊估计模型,统计分析产品或器件因部件可靠性问题导致的事故

当疲劳试验样本值中不含模糊性时,随机一模糊样本值蜕变为随机样本值,模糊子集蜕变成普通集合,依据模糊集合核的定义和普通集合的定义

模糊综合评判方法

对一组方案作出决策,给它们做一个整体的优劣排序

存在大量含模糊信息的多目标统计决策问题

将各方案在各指标因素下的数值进行标准化处理,转化为模糊满意度矩阵,归一化处理后,得到综合评判模型,然后进行整体方案集的优劣次序排序

可对一组方案做整体的优劣排序;用来统计分析某次事故受不同因素影响是发生的难易程度,或按某一指标确定某类事故发生的严重程度

适用于存在大量含模糊信息的多目标统计决策问题

 

 

转载本文请联系原作者获取授权,同时请注明本文来自吴超科学网博客。

链接地址:https://wap.sciencenet.cn/blog-532981-1439613.html?mobile=1

收藏

分享到:

当前推荐数:0
推荐到博客首页
网友评论0 条评论
该博文不允许评论
确定删除指定的回复吗?
确定删除本博文吗?