博文

[转载]制造业生产过程中多源异构数据处理方法综述

已有 4473 次阅读 2021-5-18 09:27 |系统分类:论文交流|文章来源:转载

制造业生产过程中多源异构数据处理方法综述

陈世超^1,2, 崔春雨¹, 张华³, 马戈⁴, 朱凤华¹, 商秀芹¹, 熊刚,1
1 中国科学院自动化研究所复杂系统管理与控制国家重点实验室，北京 100190
2 澳门科技大学，澳门 999078
3 北京航天智造科技发展有限公司，北京 100039
4 中国工业互联网研究院，北京 100102

摘要：随着现代制造业向着自动化、信息化、智能化方向快速发展，生产过程中会产生大量的多源异构数据。对多源异构数据的有效处理和深度挖掘可为生产制造者提供更有效的生产调度、设备管理等策略，从而提高生产质量和效率。针对制造业生产过程中多源异构数据的处理方法与技术等进行系统性的综述，首先明确了制造业生产过程多源异构数据内容及分类；其次，阐述了多源异构数据处理中数据采集、数据集成及数据分析各个阶段应用的数据处理方法和技术，并分析了各种方法与技术的优缺点以及应用；最后，对生产过程中多源异构数据处理方法和技术进行总结，指出了现阶段多源异构数据处理方法及技术面临的挑战和发展趋势。
关键词：数据处理 ; 多源异构数据 ; 生产制造

论文引用格式：
陈世超,崔春雨,张华, 等. 制造业生产过程中多源异构数据处理方法综述[J]. 大数据, 2020, 6(5): 55-81.
CHEN S C, CUI C Y, ZHANG H, et al. A survey on multi-source heterogeneous data processing methods in manufacturing process[J]. Big Data Research, 2020, 6(5): 55-81.

1 引言

在全球信息技术快速发展的背景下，随着科学技术的迅猛发展和社会信息化程度的不断提高，人类社会共享的数据的数量大大增加，共享的数据的形式大大丰富。据希捷公司与国际数据公司（IDC）共同发布的《数字化世界——从边缘到核心》白皮书，全球数据圈规模将从2018年的33 ZB增至2025年的175 ZB。其中，白皮书中指出，在全球数据圈中，制造业数据所占份额最大，远远超过其他行业。同时，伴随着中国“智能制造 2025”国家战略的实施，工业制造业面临重大的变革转型，大数据成为提升制造业生产力、创造力的关键。随着智能制造的发展，自动化、信息化、智能化等技术渗透到制造业生产过程的各个环节，从工业现场的传感器、设备到制造生产过程中的各个信息系统（如制造执行管理系统、生产监控系统、设备运行维护系统、产品质量检测系统、能耗管理系统等），均会产生大量不同结构类型的数据。以一个典型的纺织制造车间为例，其一天的数据量将达到84 GB，而一台半导体生产机器一天的数据量甚至可以达到TB级别，这些数据包括二进制、文本、视频、音频等数据。而海量的数据中蕴含着大量有价值的信息，对这些信息的提取有利于指导人们在生产制造、设备管理和生产调度等过程中做出正确的决策，达到优化制造流程、提高效能的目的，促进制造业生产过程的全面智能化，从而提高生产质量和效率。

如图1所示，产品的制造流程包括研发设计、物料采购、生产制造、产品销售及产品售后5个阶段，每个阶段的数据都具有数据来源多样、数据质量低、数据蕴含信息复杂、数据实时性高等特点，而从海量数据中发掘指导制造业研发设计、生产制造、销售售后和经营管理等过程的知识和规则，需要大量的模型算法等数据处理方法的支撑。尤其是在产品生产制造过程中产生的数据，其不仅数据量十分庞大，来源丰富、类型多样、结构复杂，而且由于制造业不同的部门和系统之间数据的来源、存储形式等各不相同，数据源之间存在异构性、分布性和自治性，数据类型既包括数字、关系型数据等结构化数据，也包括图像、音频等非结构化数据。因此，这对制造业生产制造过程中海量数据的处理方法和技术提出了更高的要求。为了充分发挥制造业多源异构数据信息的潜力，更加高效地进行数据处理，必须在明确多源异构数据概念的基础上，对多源异构数据的处理方法和技术展开深入且系统性的研究。

本文首先明确了制造业生产过程中多源异构数据的概念和类型；其次对生产过程中多源异构数据处理的过程进行了划分，同时对各个阶段的数据处理方法和技术及其在制造业生产过程中的应用进行了深入分析与讨论；最后，对生产过程中多源异构数据处理方法及技术进行了总结，并对现阶段面临的挑战及未来的发展趋势进行了分析与讨论。

2 制造业生产过程中的多源异构数据

《大数据：下一个创新、竞争和生产力的前沿》针对社会对大数据的关注及应用需求，对海量数据的处理技术进行了介绍和总结。基于对不同来源、多种结构数据的综合研究的迫切需要，多源异构数据这一概念随之产生，其主要包括两个特征：一是数据来源具有多源性；二是数据种类及形态具有复杂性，即异构性。

图1 制造流程的5个阶段

多源异构数据来自多个数据源，包括不同数据库系统和不同设备在工作中采集的数据集等。不同的数据源所在的操作系统、管理系统不同，数据的存储模式和逻辑结构不同，数据的产生时间、使用场所、代码协议等也不同，这造成了数据“多源”的特征。

另外，多源异构数据包括多种类型的结构化数据、半结构化数据和非结构化数据。结构化数据指关系模型数据，即以关系数据库表形式管理的数据；半结构化数据指非关系模型的、有基本固定结构模式的数据，例如日志文件、XML文档、JSON文档、E-mail等；非结构化数据指没有固定模式的数据，如WORD、PDF、PPT、EXL及各种格式的图片、视频等。不同类型的数据在形成过程中没有统一的标准，因此造成了数据“异构”的特征。

随着自动化、信息化、智能化等技术在制造业中的广泛应用，在生产过程中必然会产生大量的多源异构数据。从数据的来源来说，制造业的制造执行管理系统、生产监控系统、设备运行维护系统、产品质量检测系统、能耗管理系统中的各种机器设施、工业传感器等在运行和维护过程中都会产生大量的数据。从数据结构类型来看，这些海量多源异构数据既包括设备监测数据、产品质量检测数据、能耗数据等结构化数据，还包括生产监控系统产生的大量图片、视频等非结构化数据。本文综合其他学者的研究基础，针对制造业生产过程中产生的数据，按照数据来源和类型，将其做如下划分，见表1。对于制造业生产过程中的多源异构数据来说，由于生产过程存在复杂的变化条件，因此对数据的全面性、实时性的要求较高。

3 制造业生产过程中多源异构数据处理

在制造业生产过程中，从前期的数据广泛采集，到最后数据的价值提取，多源异构数据处理的一般流程包括数据采集、数据集成及数据分析。数据采集主要实现大量原始数据准确、实时的采集，为数据集成阶段提供原始数据源。数据集成主要实现数据的数据库存储，数据清洗、转换、降维等预处理以及构建海量关联数据库，为数据分析阶段提供预处理的数据源。数据分析主要利用关联分析、分类聚类及深度学习等技术实现数据的价值挖掘。多源异构数据处理的一般流程如图2所示。

图2 多源异构数据处理的一般流程

3.1 数据采集

数据采集是多源异构数据处理的基础，只有实现对生产过程中产生的大量原始数据准确、实时的采集，并将其传输到数据存储管理平台，才能对生产设备、产品质量、工作调度等进行监控与管理，从而帮助生产管理部门做出更高效、精准的决策。

针对不同类型生产制造业生产过程中的多源异构数据，需要采用不同的数据采集方法和工具。首先，对于离散制造业中的生产过程数据，主要使用射频识别（radio frequency identification，RFID）技术对生产车间中的原材料、设备、产品信息等进行数据采集。针对生产流水线上的产品信息，曹伟等人提出了一种无线射频识别数据采集单元模型，可获取零件的状态、时间等实时信息，并在此基础上建立了针对加工工序、工序流、批次与批量的无线射频识别监控模型，从而实现了对离散制造车间生产过程的可视化监控。而对于流程生产制造业中的生产过程数据，主要依靠传感器及上位机对数据进行采集。陈开胜提出了采用分布式控制系统（distributed control system，DCS）和可编程逻辑控制器（programmable logic controller，PLC）等辅助控制系统和控制装置进行数据采集的方法，该方法是对计算机、网络和数据库的综合运用。此外，在流程生产中，以计算机为基础的数据采集系统还有数据采集与监视控制（supervisory control and data acquisition，SCADA）系统。其中，PLC主要应用于生产现场的温度测控；DCS主要应用在对测控精度及速度要求较高的生产现场的数据采集；SCADA则融合了PLC的现场测控功能和DCS的组网通信能力，可以对分散点进行控制，从而实现对分布范围较广的生产现场的覆盖。西门子公司在PLC的基础上加入了网络以及软件等，开发了SIMATIC PCS7西门子SCADA系统、SIMATIC WinCC西门子SCADA系统等控制系统，而DCS厂商霍尼韦尔公司也在其系统中融入了PLC，以增强其逻辑控制，开发了过程知识系统（process knowledge system，PKS）。对于在离散制造业及流程制造业中均广泛存在的日志数据及多媒体数据等，同样根据其各自的特点采用不同的数据采集方法。对于制造生产过程产生的日志数据文件，可以采用Flume这一分布式、高可靠、高可用的日志采集传输系统。陈飞等人提出了一种基于Flume并结合Elasticsearch及Kibana的新型分布式采集系统，该系统适用于海量日志数据的采集。针对生产过程对音频、视频等多媒体数据的监控，有利用多媒体流处理引擎直接抓取或利用厂商提供的软件开发工具包（software development kit，SDK）开发数据导入程序的数据采集方法。李凤娇在海康威视的8100系列网络硬盘录像机的基础上，通过调用海康威视提供的SDK中的相关接口函数读取实时视频流。另外，浙江宇视科技有限公司的IP流媒体解决方案可以通过安装流媒体服务器软件来对多媒体数据进行实时访问及存储。对于这几种典型的数据采集方法，本文根据其面向的数据类型及在生产过程中的应用进行了总结，见表2。

另外，针对数据采集的新需求，相关研究也提出了许多与网络技术相结合的创新型数据采集方法。马吉军等人提出了一种基于边缘计算的生产数据采集方法，利用蜂窝网络对生产设备进行网络化改造，并利用边缘网关对采集到的生产数据进行本地处理。许瀚之和杨小健提出了一种基于虚拟专用网（virtual private network，VPN）的远程工业数据采集系统，在已建好的VPN环境下通过用于过程控制的OLE（OLE for process control， OPC）客户端进行数据采集。

对于目前几种典型的数据采集场景，实际应用中根据其采集的数据类型及要求等，采用Flume、RFID、传感器等不同的采集方法，这些方法具有不同的优势。而面对目前数据量迅速增长以及数据类型日益复杂化的问题，传统数据采集方法难以满足更具实时性、更精确的采集要求，因此，与物联网等前沿技术相结合成为数据采集的发展趋势。

3.2 数据集成

多源异构数据集成是整合来自多个数据源的数据，屏蔽数据之间类型和结构上的差异，解决多源异构数据的来源复杂、结构异构问题，从而实现对数据的统一存储、管理和分析，实现用户无差别访问，充分发挥数据的价值。数据集成的关键技术包括数据存储管理、数据清洗与转换及数据降维。

3.2.1 数据存储管理

数据的存储管理是多源异构数据处理过程中非常重要的一个环节，选择合理的数据库可以减少数据检索的时间，提高数据查询的准确度，是后续数据处理的基础。目前常见的数据库技术包括：以MySQL、Oracle、DB2、SQL Server等为代表的SQL数据库，以Redis、HBase、MongoDB、Neo4j等为代表的NoSQL数据库，以及NewSQL数据库。

美国甲骨文公司研发的Oracle是一种高效、适应高吞吐量的关系型数据库系统，在数据量大、对系统性能稳定要求高的钢铁、煤炭、汽车制造行业应用广泛。美国IBM公司开发的DB2具有伸缩性能良好、查询性能良好以及向下兼容性好的特点，适用于海量数据的存储管理，在政府、银行等广泛应用，另外在宝钢、本钢等钢铁企业也有应用。制造业生产制造过程中产生的海量多源异构数据包含结构化、半结构化和非结构化多种数据。由于面向结构化数据的传统关系型数据库在伸缩性、容错性、可扩展性等方面存在的固有局限性，单独使用难以满足对海量多源异构数据进行存储管理的要求，因此NoSQL数据库成为目前研究与应用的热点。

根据数据存储模型和特点，NoSQL数据库可分为4种典型类型：以Redis、Memcached为代表的键值存储数据模型，以Bigtable、HBase为代表的列式存储数据模型，以MongoDB为代表的文档存储数据模型，以及以Neo4j为代表的图形存储数据模型。Redis常被应用在社交领域，用来存储用户关系和计数。由于生产过程中多源异构数据对实时性要求较高，因此Redis在制造业数据存储中常被用作缓存系统，以保障数据存储的低时延性。在电力计量采集系统中，基于Redis的分布式写缓存子系统用于缓存采集的计量数据，再批量写入关系数据库。在大型机械设备的数据采集与存储中，熊肖磊等人在数据层基于Redis实现了实时数据的解析缓存，使系统具有高效缓存数据的能力。Google Bigtable开源实现的HBase具有扩展性好、备份机制完善的特征，当制造业生产过程涉及多源异构数据的统计分析时，可使用HBase对来自各个子系统的数据进行同步整合存储。例如，在分布式电源控制系统中，可以实现各个分布式电源系统的运行状态数据至HBase数据库的同步。查询语言功能强大的文档存储数据库MongoDB适合数据量大、数据模型无法确认、需要对接多个数据源等的场景，数据来源复杂是制造业生产过程多源异构数据的主要特点之一，因此MongoDB常被用于多个数据源或子系统的对接。在工业生产中，MongoDB可用于对过程的连续监控；在混凝土行业中，MongoDB用来存储海量的混凝土生产消耗数据，并实现多个系统之间的数据对接；在电力行业， MongoDB可以实现电网图形的多时态、多级分布式存储。

针对工业制造业过程数据产生速率快，实时性要求高，对事务的原子性（atomicity）、一致性（consistency）、隔离性（isolation）、持久性（durability）（即ACID）要求低的特点，冯德伦提出了NoSQL数据库合理组合的工业历史数据存储方案。针对制造业生产过程多源异构数据的来源更加多样化的发展趋势， NoSQL数据库与其他技术相结合的大数据平台或解决方案近年来也有不少案例。赵德基等人提出了基于Dubbo与NoSQL的工业领域大数据平台，针对工业多源异构数据的接收、存储、计算、分析及展示，根据不同场景的业务需求提供了相应的解决方案。文棒棒和曾献辉提出了一种基于传统数据库多表架构与NoSQL大数据库相结合的新型数据存储方案实现实时数据的分布式存储。

除此之外，451 Group的分析师Aslett M提出了NewSQL技术，其具有NoSQL对海量数据的存储管理能力，同时还保持了传统数据库支持ACID和SQL的特性，但目前应用范围大多为专有软件或特定场景。对于上述几种典型的数据库技术，笔者对数据库模型、支持的数据类型和应用场景等进行了对比，结果见表3。

以上几种典型的数据库技术均有其特定的优势及应用场景，而在特定复杂的应用场景中，单一的数据库往往难以满足人们对数据存储管理等多方面的要求，李东奎和鄂海红提出了关系型数据库不能完全被NoSQL数据库替代的观点，并基于Hibernate OGM建立了统一的SQL和NoSQL数据库访问模型，使得两类数据库能够在同一个框架下按照统一的规则进行读写。因此，根据具体的应用场景，选择不同类型的数据库进行混合部署，使数据库之间形成互补，是目前多源异构数据存储管理的发展趋势。

3.2.2 数据清洗与转换

准确可靠的数据是进行有效数据分析、数据挖掘的前提。在实际的生产过程中，由于多源异构数据来源众多的特征，采集到的数据的质量难以保证，缺失的、错误的、不一致的等不符合规范的“脏数据”普遍存在，同时来自不同系统的数据的格式也并不统一，这些都会给数据的有效分析带来困难。数据清洗的目的就是检测数据中存在的“脏数据”，通过数据筛选、数据修复等手段提高数据的质量。而数据转换主要是将多源异构数据转换成统一的目标数据格式，并完成对不同数据指标进行转换的计算。

针对生产过程中不同的问题数据，可以给出不同的数据清洗方法。由于制造业生产过程中的多源异构数据往往来自多个数据源，各数据源通常具有不同的数据库系统、接口服务等，因此数据具有结构类型多样、表达形式不统一等特点，这就导致采集的数据中会存在数据缺失、数据错误、数据不一致等问题。对于缺失的数据，大多数情况下需要手工进行填入，某些情况下可以通过统计学习的方法对缺失值进行处理。曹林针对具有聚类特征的数据集，提出了一种回归插补的缺失值清洗框架。对于错误数据，首先利用统计分析的方法对可能出现的错误值进行识别，然后才能对错误数据进行清除，达到数据清洗的目的。对于不一致的数据，可以基于关联数据之间的一致性来检测数据潜在的错误，并进行修复，以完成对多数据源数据的清理。

对于制造业生产过程中的多源异构数据来说，单一的数据清洗方法难以满足实际需求，这就需要一个系统的数据清洗方案。ETL（extract、transform、load）工具是一类常用的大数据预处理工具，应用广泛的有国外开源的Kettle工具、IBM公司的Datastage以及Informatica，其在数据清洗环节发挥着十分重要的作用。也有许多研究人员按照不同的需求对ETL技术进行了改进与完善。周瀚章等人设计了一种基于区域划分算法的ETL高效数据清洗方案，解决应用ETL时产生的大量错误属性数据的问题。ETL工具不仅在数据清洗方面具有广泛的应用，同时也是数据转换的主要工具。孙安健等人设计了一种可以屏蔽异构数据源访问差异的通用ETL工具，提供了大量转换组件来灵活处理复杂的应用场景。陈玉东和姚青提出了一种应用于业务流程数据的转换规则，通过设计流程数据转换算法来将流程日志中的数据快速准确地转换成评估系统需要的标准数据。

除此之外，针对不同的制造业门类及数据采集方法，有不同的数据清洗方案。针对RFID采集数据实时性强、数据量大的特点，余杰和王睿提出了基于时间和基于时间间隔的布鲁姆滤波模型，可以在低内存的情况下保证数据应用的实时性。针对生产车间制造物联环境下采集到的数据连续性、冗余性强的特点，蓝波等人提出了一种基于卡尔曼滤波模型的滑动窗口技术，该技术更加适用于RFID标签移动的生产场景。这些研究针对不同的生产制造场景、不同的采集数据类型和特点，对数据清洗方法进行了改进和完善，使其更加适应实际应用的需要。

目前，深度学习和众包技术开始在数据清洗环节得到应用。郝爽等人提出了利用深度学习模型解决复杂数据清洗任务的方法。针对参与者水平参差不齐造成数据清洗质量较低的情况，万耀璘等人提出了在决策阶段利用成熟计算机算法来提高众包可靠性的方案。深度学习可以减轻用户制定数据清洗规则的负担，众包技术将数据清洗任务发送到互联网，利用公众的参与来提高数据清洗的效率，二者与传统数据清洗技术的结合是数据清洗技术在未来一段时间的发展趋势。对于数据转换来说，ETL工具仍然是提高数据质量、屏蔽数据差异的首选工具。因此，对ETL工具自身现有的扩展性差、调试不便利等局限性进行改进和完善是下一步研究与开发的重点。

3.2.3 数据降维

多源异构数据具有种类繁多、结构复杂的特点，为了从原始数据中提取更加可靠、有效的数据信息，需要消除无关、冗余的特征，生成新的特征数据，从而实现对高维数据的降维。在现代制造技术的发展中，制造业生产过程中海量的多源异构数据往往维数较高且大量数据之间存在较高的相关性，这给数据降维带来了更高的难度。一般来说，可以通过对数据进行特征选择或者特征提取来实现数据降维。特征选择的方法通过对原始特征集合中的元素进行选择来得到原始特征集合的子集，从而实现降维；而特征提取的方法则通过对不同特征进行组合来得到新的特征集合，从而达到数据降维的目的。

特征选择不改变特征的含义，从原始特征数据集中选择具有代表性和统计意义的特征，以实现降维的目的。特征选择方法包括基于全局搜索、随机搜索以及启发式搜索策略的特征选择方式和基于Filter、Wrapper的特征选择算法。

全局搜索策略遍历原始特征集，通过评价准则选择满足特定条件的特征子集，其优点是可以得到最优特征子集。但制造业生产过程中的多源异构数据往往是具有多个独立或相关属性的高维数据，因此运算成本较高，在实际中难以应用。随机搜索策略首先随机选择特征，然后用模拟退火算法进行顺序搜索，或用遗传算法进行无规则搜索，再根据分类的有效性对特征赋予权重，选择权重大于定义阈值的特征。由于随机搜索易受随机因素的影响，不确定性较高，不同的参数设置对随机搜索结果也有较大的影响。启发式搜索策略又被称为序贯优选法，可以实现最优特征子集与计算复杂度之间的平衡。相比于前两种方法，其复杂度较低、效率更高。陈建华针对设备故障中对数据集降维的问题，提出了一种基于关联关系与启发式搜索组合的特征选择方法，特征子集通过双向搜索算法产生，并通过计算属性之间的关联关系来剔除冗余属性，提高了效率和准确性。

基于Filter的特征选择直接根据评价准则对数据的统计特征进行评价，去除重要程度低的特征，选出的特征子集一般规模较大，适合作为特征预筛选器。基于Wrapper的特征选择依赖后续分类算法，将子集的选择看作搜索寻优问题，根据分类器的准确率来对特征子集进行评价，其分类效率与精度都较高。制造过程中的多源异构数据往往特征众多且关系复杂，田文荫提出了针对高维制造过程的结合偏最小二乘回归与Wrapper特征选择的混合特征选择方法，同时针对制造业生产数据常出现的类别间不平衡问题，提出了一种基于G-Mean的新的混合特征选择方法，在降维能力和分类性能方面均取得了良好的结果。

特征提取通过将原始特征变换成具有具体物理意义或统计意义的特征，将高维的特征向量变换为低维的特征向量。由于制造业生产过程中的多源异构数据来源于制造生产各个环节中的设备、产品信息等，具有较强的专业性及关联性，因此在进行数据特征提取时会更加注重特征背后的物理意义以及特征之间的关联性。传统的特征提取方法包括线性主成分分析（principal component analysis，PCA）、线性判别分析（linear discriminant analysis，LDA）、独立成分分析（independent component analysis，ICA）、非线性的核主成分分析（kernel principal component analysis， KPCA）、核独立成分分析法（kernel independent component analysis， KICA）。

主成分分析法主要通过观测变量内部的相互关系来整理信息，将可能相关的原始数据集转换成线性不相关的新特征集合，实现高维数据向低维数据的压缩。在纺织业中，刘海军等人利用本色布纹理的自相关性特征，采用主成分分析法去除其相关性，得到了纹理的主成分，将在主成分方向上样本图像的压缩结果作为特征变量，进行分类检测，得到了较高的分类准确度。在煤矿井下供电系统故障检测中，郭凤仪等人通过对时频域变换的回路电流特征矩阵的奇异值进行主成分分析，得到了故障识别的特征，进一步采用遗传算法优化的支持向量机对故障电弧特征的有效性进行测试，可以有效识别电机及变频器负载回路的串联故障电弧。针对机械装备制造业生产过程对加工设备依赖程度高的问题，姚菲提出了一种对备件预测理论的创新性探索，利用基于主成分分析和支持向量机的综合算法进行需求预测，从而实现对设备备件需求的预测。主成分分析法适合处理呈高斯分布的原始数据，但实际生产过程中多源异构数据分布的复杂程度远超高斯分布，这限制了主成分分析法的应用。

线性判别分析法是有监督的特征提取方法，降维后在新的子空间中使同类特征尽可能接近、不同类特征尽可能分散，与主成分分析法一样，也适合用于处理高斯分布数据。针对模拟电路故障诊断中故障数据的特征提取方法，肖迎群等人对模拟故障数据在主元变换空间进行线性判别分析，并将最优判别特征模式应用于模式分类器，在充分简化模式分类器模型及降低系统运行成本的基础上获得了较好的诊断结果。另外，在图像识别数据分析中，线性判别分析法也是一个十分具有优势的工具。在对铅酸蓄电池X射线图像的特征提取中，杨金堂等人分别采用主成分分析法、线性判别分析法以及二次线性判别分析法，最终得出二次线性判别分析法在该图像识别中具有较高识别率的结论。

独立成分分析法将原始数据分解为若干独立分量的线性组合，更适合用于处理非高斯分布的情况。杨冲等人采用独立成分分析和主成分分析两种常用方法对制浆造纸废水处理过程中的传感器故障进行检测，由于制浆造纸废水处理过程中的数据呈非高斯分布，ICA的整体故障检测率高于PCA。针对滚动轴承在噪声背景下产生故障时的振动信号，姜怀斌利用独立成分分析在数据独立性分析方面的优势，提出了一种独立元核FDA（ICA-KFDA）故障检测模型，提高了故障诊断的准确率，降低了漏检率。

对于图像视频等呈非线性分布的数据，需要使用非线性的特征提取方法。核主成分分析由Scholkopf B等人在PCA的基础上提出，将原始数据通过核函数映射到高维度空间后，再利用PCA进行降维。针对旋转机械结构中轴承状态的识别，谢锋云等人提出了粒子群优化核主成分分析法，对轴承的复合特征集进行特征提取，继而由支持向量机对识别特征集进行识别分类，提高了轴承状态识别的准确率。对于行星齿轮传动系统故障，贺妍和王宗彦用粒子群优化方法改善了核主成分分析法对非线性问题的分析，新方法在行星齿轮磨损程度的识别和诊断中取得了良好的结果。

核独立成分分析法也是利用相同的思想在ICA的基础上进行扩展的，近年来被广泛应用在非线性混叠的源分离技术中。针对旋转机械结构中的滚动轴承故障，刘嘉辉等人提出了一种全矢谱和独立分量分析（ITD和KICA）相结合的盲源分离法，对采样的滚动轴承故障信号进行有效的信噪分离，在降噪的同时能够更加全面、准确地提取信息，并进行轴承故障诊断。针对化工行业的润滑油生产过程，许亮等人提出了基于混合核函数的KICA-LSSVM故障分类方法，提高了故障诊断的速度和准确性。

除了对这些传统的特征提取方法进行优化以外，针对制造业生产过程中数据的特点，一些研究提出了不同的方法对数据特征进行提取。针对生产现场传感器时钟差别及生产设备运行原理导致的不同数据源之间可能存在延迟关联的问题，张守利等人提出了一种面向时延的传感器数据特征提取方法，利用基于皮尔逊相关系数的曲线排齐算法调整不同传感器数据之间的时间，使得调整之后的数据相关性达到最大。苗爱民等人提出了一种基于局部线性嵌入（locally linear embedding， LLE）的非线性故障检测新技术，可以有效地计算出保留了局部邻域结构信息的数据的低维嵌入。尚超等人针对制造生产过程中某些产品质量和关键变量始终难以在线测量的问题，构建了一种基于历史测量数据驱动的软传感器，从而对这些变量进行稳定可靠的在线估计。

随着制造业多源异构数据中非结构化数据所占份额的增多，对多源异构数据的特征提取在数据处理中的重要性也大大增加，而在未来一段时间内，对于多源异构数据处理平台来说，对实时数据以及高维度数据集的特征提取仍然是一个挑战。同时，由于工业生产环境的复杂性，针对工业生产过程中的数据降维，要更多地结合业务场景本身，利用先验知识或者专家知识对数据进行降维。

3.3 数据分析

数据分析是多源异构数据处理的关键，是指在数据采集与数据集成环节的基础上对工业生产数据的信息和知识进行提取，其目的是利用数据挖掘、机器学习、统计分析等技术对集成的多源异构数据进行分析和处理，从而提取出有价值的信息和知识，用于检测制造生产运行状况和生产产品质量检测、指导人员做决策等。针对工业生产中的数据分析技术等问题，其他学者也有相关研究，但本文从更广的应用领域及更全面的方法的角度对制造业生产过程中的数据处理方法进行综合研究。目前，数据分析环节的关键技术包括关联分析、分类分析和聚类分析等。

3.3.1 关联分析

数据关联分析就是发现表面看来无规律的数据间的关联性，从而发现事物之间的规律性和发展趋势等。常用的关联规则挖掘算法包括Apriori算法和FP-Growth算法。

Apriori算法首先通过遍历数据库确定频繁项集，然后根据支持度阈值进行修剪，最后根据支持度来计算可信度，从而确定关联规则，是一种被广泛应用的关联规则挖掘算法。针对大型化和复杂化的机械装备制造业生产过程中异常事件发生概率高、报警数量巨大的问题，樊虹提出了基于数据挖掘Apriori算法的工业过程报警处理方法，缩小了重复报警的数量，提升了对报警事件的处理效率。但是该算法仍然存在需要频繁遍历数据库从而产生大量候选集的问题。针对这一问题，周凯等人提出了一种仅需对数据库扫描一次即可实现改进Apriori算法，可以有效地提高产生有效频繁项集的效率。除此之外，刘芳和吴广潮提出了一种将数据库转换为矩阵形式，通过缩小候选项集规模、减少无用候选项集生成来提高算法效率的方法。

FP-Growth算法是对Apriori算法最经典的改进，采用频繁模式树（FP-tree）存储频繁项集，减少数据库扫描次数。针对制造业设备对快速准确诊断设备故障的需求，张斌等人提出了一种基于兴趣属性列的改进FP-Growth算法的数据挖掘方法，从而实现对工业生产设备故障的快速准确诊断。针对轮胎制造过程中质量异常的问题，李敏波等人提出了一种改进后的FP-Growth并行算法，该算法能够高效地找到影响轮胎质量的因素。另外，针对FPGrowth算法中存在的FP-tree占据空间过大的问题，顾军华等人通过对FP-Tree的规模大小和计算量以及F-List分组策略进行优化，提出了一种新的基于Spark的并行FP-Growth算法——BFPG算法。

除上述两种数据关联分析算法外，由于制造生产过程中数据量在不断增加，在线的动态数据关联分析具有更加现实的意义。Hidber C提出了一种在线的关联分析数据挖掘算法——CARMA算法，该算法具有在线实现数据关联分析、精度高、允许用户在线调整阈值的优点。此后，于丽等人分别对算法的参数估计、数据集遍历次数进行了优化改进，提高了算法的速度及精度。如今，CARMA算法在预测和控制领域得到了广泛应用。

目前关联分析方法存在诸多不足，如何利用关联规则算法对非结构化数据进行有效处理、如何将关联规则算法与其他的决策方法结合以实现更准确的数据分析等，均有待进一步的研究和发展。

3.3.2 分类分析

对于制造业生产过程的数据分析来说，数据的分类技术是实现数据信息挖掘及结果预测的十分重要的方法之一。

分类是指通过算法将数据划分到已经定义好的类别中。常用的分类算法包括决策树算法、基于规则的分类法、人工神经网络算法、深度学习算法、支持向量机（SVM）算法、贝叶斯算法等。

决策树通过对数据集的分析归纳进行学习，应用范围广泛，对于key-value类型的数据来说是最优选择。目前，较为常见的决策树分类算法有C4.5、SLIQ和SPRINT。决策树算法在生产计划安排方面的应用备受关注。针对离散工业的静态Job Shop调度问题，王成龙提出了用决策树模型提取调度知识的方法，对生产调度方案进行了优化。针对机械装备制造业生产计划中工单加工顺序和同一机器不同工件加工顺序等历史数据，于艺浩提出了一种可根据实时数据为工件安排合适的机器的决策树模型，达到了制造车间根据生产状态实时优化调度的效果。另外，在产品质量检测与分析方面，决策树算法也有非常广泛的应用。针对我国冷轧酸洗产品生产技术尚不成熟、产品表面不合格率较高的问题，郭龙波通过对冷轧酸洗产品数据使用二分决策树等工具进行分析，得出了影响冷轧酸洗产品表面质量缺陷的因素以及判定标准，使企业能够更高效、准确地对产品缺陷进行检测。宋建聪提出了一种基于C4.5决策树算法的生产过程质量分析模型，通过找出引起质量问题的主要因素来对产品质量缺陷进行责任分析和诊断，进而采取针对性的措施来提高产品合格率。

基于规则的分类法是利用用户为每个类直接确定的分类规则来形成类别模板，规则分类器通过统计样本中满足分类规则的规则数和次数来确定样本种类的分类方法，常用来产生更易于解释的描述性模型，更适用于处理类分布不平衡的数据集。在能耗分析系统中，许明洋对基于规则的节能措施实施分类算法的应用进行了分析，基于规则的分类法需要用户自己学习规则，与其他分类算法相比，灵活性与准确性较差。

人工神经网络（artificial neural network，ANN）具有自主学习、容错性高的特点，适合处理模糊、非线性的数据，其中前馈式神经网络模型常用于分类算法。其中，反向传播（back propagation，BP）神经网络算法主要利用反向传播算法对网络的权值和偏差进行反复调整训练，使输出的向量尽可能接近期望向量。但由于其随机获取网络初始权重和阈值的特点，BP神经网络具有收敛时间长、易陷入局部最优解的缺点。周福来、张细政等人、关子奇等人、夏颖怡均基于遗传算法对BP神经网络进行了优化，从而实现了对齿轮设备故障、焊接熔池照度以及刀具寿命等的精确诊断。李世科采用列文伯格马夸尔特（Levenberg-Marquardt，LM）算法对BP神经网络进行改进，对液压支架顶梁疲劳寿命进行了精确的预测。罗校清应用主元分析法对BP神经网络进行了优化，最终实现了对机械设备故障的准确判断和及时报警。

深度学习最早起源于对人工神经网络的研究，最早由多伦多大学的Hinton G E等人在2006年提出，指基于样本数据的包含多层次的深度网络结构的机器学习过程。深度学习本质上属于机器学习的范畴，是机器学习领域一个新的研究方向，在图像、语音、文本分类识别方面具有非常好的优势，具有强大的对不同类型数据的处理能力，因此对制造业生产过程中的数据分析起到非常大的作用。如今被广泛熟知的深度学习基本模型包括深度神经网络（deep neural network，DNN）、循环神经网络（recurrent neural network， RNN）、卷积神经网络（convolutional neural network，CNN）、深度置信网络（deep belief network，DBN）等。深度神经网络可以简单地理解为含有多个隐藏层的神经网络，其优势体现在对无标签数据的自我学习。对于机械设备中常见的传动零件齿轮的故障监测，李嘉琳等人应用深度神经网络来诊断早期齿轮点蚀故障，将采集的振动信号直接作为DNN输入，可以有效解决特征提取环节造成的较大误差，与传统ANN诊断结果相比，故障诊断率得到了提高。针对制造车间中关键刀具设备的寿命预测问题，刘胜辉等人将小波包分析方法得到的结果作为输入来训练深度神经网络，建立刀具剩余寿命预测模型，可对切削刀具剩余寿命进行精确的预测。卷积神经网络是一种包含卷积计算的前馈神经网络，长期以来是图像识别领域的核心算法之一。曹大理等人采用卷积神经网络自适应地提取特征，避免了人为提取的局限性，提高了刀具磨损在线监测的精度。吴志洋等人针对布匹生产中的布匹瑕疵检测，提出了一种基于深度卷积神经网络的单色布匹瑕疵检测算法，很好地解决了人工检测效率低、误检率高的问题。彭大芹等人提出了一种基于卷积神经网络的液晶面板缺陷检测算法，并在传统单向特征融合的基础上提出了双向特征融合的网络结构，提高了检测精度。李广等人针对工业中常见的机床刀具消耗冗余问题，采用异常检测卷积神经网络（CNN-AD）对机床刀具的崩刃进行准确预测。循环神经网络是一类用于处理和预测序列数据的神经网络模型，与传统机器学习方法相比，其对于输入/输出数据没有过多限制，可以用来处理文本、音频和视频等序列数据。针对燃煤电站NOx排放预测模型建模中输入变量特征集确定困难的问题，王文广和赵文杰提出了一种基于数据驱动的门控循环单元（gated recurrent unit，GRU）循环神经网络模型，将GRU作为RNN的神经网络单元，从而使RNN能够分析长时间的时间序列问题，对燃煤电站锅炉NOx排放实现准确预测。对于基于循环神经网络的电力变压器故障诊断模型存在的诊断不清晰、收敛速度慢的缺陷，李俊峰基于蝙蝠算法对循环神经网络的参数进行了优化，改进后的变压器故障诊断模型的收敛性及诊断准确率均得到了较大提升。深度置信网络通过模拟人类大脑对外部信号的处理来实现功能，是由多个限制玻尔兹曼机（restricted Boltzmann machine，RBM）叠加组成的网络模型。王宪保等人运用深度置信网络训练网络的初值，再通过对比重构图像与缺陷图像，实现快速准确的太阳能电池片表面缺陷检测。李梦诗等人提出了一种基于深度置信网络的新型风力发电机故障诊断方法，并通过与传统检测方法进行对比，验证了该算法的鲁棒性。刘浩等人提出了一种基于多参数优化深度置信网络的滚动轴承外圈损伤程度识别方法，可有效地提高故障识别的准确性和稳定性。目前深度学习模型在制造生产数据分析中的大致发展方向是与其他算法相结合，对深度学习基本模型中的参数、结构进行优化，从而提高算法的精确性与鲁棒性，实现更精准的检测与预测。

支持向量机是一种通过核函数免去高维变换，直接将低维参数代入核函数从而得出高维向量内积的分类方法，常用于故障诊断。针对机械制造业中滚动轴承造成的故障识别问题，吕震宇提出了一种使用磷虾群算法优化的支持向量机，对轴承状态进行精确诊断，从而精确地识别滚动轴承的故障类型，较传统支持向量机的识别精度更高。吕维宗等人提出了基于量子粒子群优化（quantum particle swarm optimization，QPSO）算法优化的相关向量机（relevance vector machine，RVM），并进行故障诊断，相较于支持向量机而言，其更适用于小样本处理和在线故障诊断。

贝叶斯分类算法是在贝叶斯公式的基础上，利用概率统计进行分类计算的方法。其中，朴素贝叶斯分类应用最广泛。制造生产过程中少不了电池寿命与电力故障的问题，Ng S S Y等人针对不同工作环境温度及放电电流情况，提出了用于不同工作状况下电池估计和剩余使用寿命预测的朴素贝叶斯模型。李梦婷等人基于增量式贝叶斯算法，提出了一种实时性在线电路故障诊断方法，可以同时实现在线电路故障诊断的高精确性与高实时性。

目前分类分析方法在工业生产中已经有广泛的应用，尤其是基于机器学习的分类方法。但是现阶段单一的数据分类方法并不具有较高的准确性及可靠性，需要不同算法的融合才能产生较为可靠的数据分类及预测结果。然而不同算法的融合势必会造成系统时延，如何平衡系统的可靠性和实时性是研究的方向之一。另外由于工业生产的特殊性和复杂性，针对同一类分类问题，并没有通用的分类方法可以使用，要得到可靠的分类结果，需要与实际场景、实际业务相结合。同时，如果要得到较为准确的分类结果，分类算法模型的训练数据集需要结合生产领域的经验知识进行相应的特征工程处理。

3.3.3 聚类分析

聚类就是将相似的数据归为一类，原则是使每一类数据的相似性最大。常用的聚类算法包括基于划分的聚类方法、基于层次的聚类方法、基于密度的聚类方法和基于模型的聚类方法四大类。

其中，最常用的是K-means算法。K-means算法是一种基于划分的聚类方法，通过随机选择K个数据点作为初始聚类中心，根据特定的距离算法将待聚类的数据集分成K簇。娄小芳通过对大量铝工业生产历史能耗数据进行处理分析，运用K-means算法等方法分析其规律，以此指导生产部门改进参数，降低能耗。针对酿酒不良发酵行为早期迹象的识别，Urtubia A等人通过对产品中29种成分检测的数据采用K-means算法进行聚类分析，获得了不良发酵行为模型，从而实现了对产品质量的认定，减少了早期行为造成的损失。但该算法存在聚类结果受选择的初始聚类中心影响较大、处理大数据时间效率低等缺点。徐健锐和詹永照将改进的K-means算法和分布式计算框架Spark结合，提出了大数据下的快速聚类算法SparkKM，该算法既弥补了经典K-means算法的不足，又发挥了Spark分布式计算处理速度快的优势。

除此之外，常用的聚类方法还有基于密度的DBSCAN算法、基于层次的BIRCH算法以及基于模型的高斯混合模型（GMM）等。基于密度的DBSCAN算法通过对核心点、边界点和噪声点的标记，将具有密度的区域划分成簇。针对风力发电设备中故障率最高的齿轮箱和主轴的故障识别问题，林涛等人利用DBSCAN聚类算法对运行数据进行密度聚类，对齿轮箱和主轴的故障进行较准确的诊断。针对电力系统信息安全问题，谢静瑶等人采用启发式的自适应算法对DBSCAN算法的部分参数进行估计，改进了聚类效果，从而提高了信息安全预警分析的准确性。基于层次的BIRCH算法利用树结构进行聚类，适用于数据量大、类别数多的数据处理。对于木材加工中木材缺陷的识别问题，吴东洋和业宁采用BIRCH算法对数据集进行一次扫描即可得到较高的聚类质量，提高了识别准确率。针对食品卫生的HACCP （hazard analysis critical control point）自动分类，叶飞跃等人提出了一种多阈值、多代表点的BIRCH算法，该算法可以适应HACCP分类中各种形状的数据集。基于模型的高斯混合模型是一种融合了参数模型和非参数模型的优势的聚类方法，常被应用在语音识别、图像识别等领域。针对机械结构中易损坏的滚动轴承，龙铭等人提出了一种基于自回归高斯混合模型（AR-GMM）的滚动轴承故障程度评估方法。它以早期无故障轴承振动信号的AR模型特征为基准特征，引入后期轴承振动信号的AR特征，可以监测滚动轴承各种形式的早期故障。针对应用广泛的螺栓连接，王刚等人利用监测区域内螺栓连接结构的各种松动工况的实时数据建立高斯混合模型，基于高斯混合模型的概率密度分布之间的相似度最大准则，可有效判断监测区域螺栓的松紧状态。针对印花织物的表面疵点检测，李敏等人在传统高斯混合背景模型的基础上引入了自适应分块建模的思想，在提高印花织物疵点检测准确率的同时，能有效地处理检测过程中的光照不均和噪声等问题。

数据量的迅速增加使得对大规模数据的分类、聚类成为具有挑战性的研究问题。对于分类算法来说，不同的算法均有其独特的优势以及特定的应用领域。对于聚类算法来说，传统聚类算法经过抽样或降维会损失精确性，而并行聚类算法尽管具有对大数据高效、良好的扩展性等优点，但算法实现较复杂。简单高效、扩展性高的面向大数据且不消耗更多软硬件资源的分类聚类算法是未来的主要研究和优化方向。

4 结束语

本文对制造业生产过程中多源异构数据的概念和类型、数据处理的方法和技术进行了较为全面的综述和梳理。将生产过程中的多源异构数据按照数据来源和数据类型进行了分类，对数据处理的整体流程进行了定义，并对数据处理过程中的具体方法、技术及其在生产过程中的具体应用进行了总结分析。

随着工业物联网的快速发展，数据的来源更多，数据结构更加多样化，同时生产过程中信息系统对数据处理的实时性、准确性要求更高，这给多源异构数据的处理带来了巨大的挑战。首先，设备的多样性和复杂性会给数据采集方法、技术带来新的挑战，需要增加更为丰富、可靠、高效的数据采集方法和技术；其次，海量的数据对数据存储技术的容量和效率、精度等提出了更高的要求，也对传统的SQL、NoSQL等数据存储系统的扩展能力提出了更高的要求，综合数据存储系统成为未来发展的趋势；最后，实际生产对数据清洗、降维及数据分析方法和技术的效率和精确度的要求进一步提高。另外，只有性能更高的数据处理分析平台及更高效的数据挖掘算法才能满足大规模多源异构数据的实时处理与分析要求。另外，随着边缘计算在工业生产过程中的快速应用，面向边缘控制器、边缘网关和边缘云的数据采集、存储、处理和分析的方法和技术的研发将成为重点研究方向。

作者简介

陈世超（1987-），男，澳门科技大学计算机技术及应用专业博士生，中国科学院自动化研究所复杂系统管理与控制国家重点实验室助理研究员，主要研究方向为数据处理、工业物联网、边缘计算。

崔春雨（1998-），女，就职于中国科学院自动化研究所复杂系统管理与控制国家重点实验室，主要研究方向为数据处理、边缘计算。

张华（1986-），女，博士，北京航天智造科技发展有限公司平台研发部高级工程师，主要研究方向为现代精密测量、工业物联网和边缘计算。

马戈（1990-），男，博士，中国工业互联网研究院智能化所工程师，主要研究方向为工业互联网、人工智能、边缘计算等。

朱凤华（1976-），男，博士，中国科学院自动化研究所复杂系统管理与控制国家重点实验室高级工程师，主要研究方向为人工交通系统、平行交通管理系统。

商秀芹（1983-），女，博士，中国科学院自动化研究所复杂系统管理与控制国家重点实验室助理研究员，主要研究方向为智能制造的数据驱动建模与优化技术。

熊刚（1969-），男，博士，中国科学院自动化研究所复杂系统管理与控制国家重点实验室研究员，主要研究方向为复杂系统平行控制与管理、智能制造、智能交通 E-mail：xionggang@casc.ac.cn。

联系我们:

Tel:010-81055448

010-81055490

010-81055534

E-mail:bdr@bjxintong.com.cn

http://www.infocomm-journal.com/bdr

http://www.j-bigdataresearch.com.cn/

大数据期刊

《大数据（Big Data Research，BDR）》双月刊是由中华人民共和国工业和信息化部主管，人民邮电出版社主办，中国计算机学会大数据专家委员会学术指导，北京信通传媒有限责任公司出版的期刊，已成功入选中文科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊，并被评为2018年国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。

转载本文请联系原作者获取授权，同时请注明本文来自唐名威科学网博客。
链接地址：https://wap.sciencenet.cn/blog-3472670-1287069.html

上一篇：[转载]基于生成对抗网络的医学数据域适应研究
下一篇：[转载]基于分层注意力网络的方面情感分析

收藏 IP: 124.202.175.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

唐名威

扫一扫，分享此博文

bigdataresearch的个人博客分享 http://blog.sciencenet.cn/u/bigdataresearch

博文

[转载]制造业生产过程中多源异构数据处理方法综述

制造业生产过程中多源异构数据处理方法综述

1 引言

2 制造业生产过程中的多源异构数据