浅谈QAR大数据分析与应用
QAR数据分析指的是用适当的统计分析方法对收集来的QAR数据进行分析,提取有用信息和形成结论而对QAR数据加以详细研究和概括总结的过程。目前航空公司在QAR数据分析与应用上主要有两类问题。
一是典型超限事件的数据分析不够深入。多数航空公司对超限事件的数据分析虽然能通过数据复原和仿真,完整还原当时的情景,对识别和监控飞行中的典型事件、信息报告的核实及不安全事件调查等起到了积极作用,但还仅停留在单一典型事件本身,没有对单一事件或同类事件背后的隐藏的危险源进行探究。此外,对超限事件分析缺少对机队趋势性风险的识别和研判,也缺乏对超限事件控制措施的落实情况的验证和反馈。
二是基于正常QAR参数的统计和分析不足。大多数航空公司缺乏一个较为成熟的能提供正常QAR参数的统计分析平台,许多成熟的数据挖掘方法无法或没有在现有QAR数据应用基础上使用。
要解决上述两类问题,就需要在QAR数据分析中引入“大数据”的概念。
大数据泛指巨量的数据集,一般大数据有四个特点,即“4V”:Volume(规模性)、Velocity(高速性)、Variety(多样性)、Value(价值性)。从特征上来说,QAR数据就是一种大数据。顾名思义,大数据分析是指对规模巨大的数据进行分析。大数据分析是大数据到信息,再到知识的关键步骤。
飞行品质监控发展到一定阶段,会出现下列2个特点,此时通过QAR大数据的应用,就可以持续有效地提高机队的飞行品质:
一是飞行超限事件逐渐减少,甚至不发生。此时可开展基于正常QAR参数的大数据统计分析工作,例如分析大量QAR参数间的相关性、统计校验QAR数据分析假设等,找寻数据背后隐藏的规律。
二是飞行操纵品质趋向于统一,QAR数据出现聚集现象。此时可开展基于正常QAR参数的数据挖掘和机队运行监控,或通过对机场、航线、环境、机组操纵情况等正常QAR参数的分析开展针对性风险管控,进一步提升飞行安全。
开展基于正常QAR参数的大数据分析,首先要做的是QAR原始数据的批量提取、自动译码、参数配置、参数归一化等一系列工作。其次需要将正常QAR参数与人员信息、机场信息、航线信息、航班信息、飞机信息等外部数据源进行匹配,为下一步的大数据统计分析做准备。此部分工作需要借助大数据分析平台,如GEEMS、AIRFASE、MATLAB、各公司自己开发的数据分析平台等来完成。
一般来说,基于正常QAR参数的大数据分析过程大致分为以下6个步骤:
1.业务理解
最初的阶段集中在理解项目目标和从业务的角度理解需求,同时将业务目标转化为数据分析问题的定义和实现目标的初步计划上。
2.数据理解
数据理解阶段从初始的QAR数据收集开始,目的是熟悉数据、识别数据的质量问题,发现QAR数据的内部属性,或是探测引起兴趣的参数去形成部分假设。
3.数据准备
数据准备阶段是构造QAR大数据库的过程。这些数据将是模型工具的输入值。这个阶段的任务可能需要持续进行,包括数据表、数据记录和底层数据属性的构建,以及为模型工具转换和清洗数据等。
4.建模
在这个阶段,可以选择和应用不同的模型技术,模型参数被调整到最佳的数值。有些模型可以解决一类相同的数据分析问题;有些模型在数据形成上有特殊要求,因此需要经常跳回到数据准备阶段。
5.评估
在这个阶段,已经从数据分析的角度建立了一个高质量显示的模型。在最后部署模型之前,重要的事情是彻底地评估模型,检查构造模型的步骤,确保模型可以完成预定目标。这个阶段的关键目的是确定是否有重要的业务问题没有被充分考虑。在这个阶段结束后,一般需要达成一个数据分析结果使用的决定。
6.部署
通常,模型的创建不是项目的结束。模型的作用是从数据中找到知识,获得的知识需要以便于用户使用的方式重新组织和展现。根据需求,这个阶段可以产生简单的报告,或是实现一个比较复杂的、可重复的数据分析过程,如形成实时的监控模型等。
基于正常QAR参数的大数据分析不是简单的数据分析的延伸。QAR数据规模大、更新速度快、来源多样等性质为大数据分析带来了以下4种挑战。
1.可扩展性
由于大数据的特点之一是“规模大”,利用大规模数据可以发现诸多新知识,因此QAR大数据分析需要考虑的首要任务之一就是使得分析算法能够支持大规模数据,在大规模数据上能够在应用所要求的时间约束内得到结果。
2.可用性
QAR大数据分析的结果应用到实际中的前提是分析结果的可用,这里的“可用”有两个方面的含义:一方面,需要结果具有高质量,如结果完整、符合客观事实等;另一方面,需要结果的形式适用于实际的应用。对结果可用性的要求为大数据分析算法带来了挑战,高质量的分析结果需要高质量的数据;对结果形式的高可用性需要高可用分析模型的设计。
3.与飞行相关知识的结合
QAR大数据分析的过程需要和飞行相关知识紧密结合,这为QAR大数据分析方法的设计带来了挑战:一方面,飞行相关知识具有的多样性导致相应的大数据分析方法需要具有多样性;另一方面,对分析人员的飞行相关知识有较高要求。
4.结果的检验
飞行无小事,QAR大数据分析的应用必须要有高可靠性的分析结果,否则将会带来灾难性的后果。因此,QAR大数据分析结果需要经过一定的检验才可以真正应用。
总体来说,QAR大数据分析与应用可从数据统计分析、数据挖掘、机队监控及风险管理四个方向开展工作。因篇幅原因,本文仅做简要阐述。
一、基于QAR大数据的统计分析
基于QAR大数据的统计分析是指用适当的统计分析方法对收集来的大量QAR数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。典型的QAR大数据统计分析包括以下4类:
1.对比分析
对比分析是指通过实际数和设定基数之间的差异,来了解单一参数或多个参数之间的关系,包括差异分析、方差分析、距离分析、聚类分析、判别分析等。
例如,我们可对比飞行员在同一飞机不同航段的着陆操纵杆量变化与机队平均值之间的差异,通过静态对比和动态对比等方式,找出影响其操纵杆量的因素。
2.相关分析
相关分析是研究两个或两个以上的变量之间的相关关系的统计分析方法。它是描述客观事物相互间关系的密切程度并用适当的统计指标表示出来的过程,包括偏相关分析、因子分析、对应分析、多元对应分析、主成分分析等。一般来说,相关分析是对数据中具有一定因果关系的变量进行的分析。
例如,我们可以研究接地垂直过载大事件与飞行员着陆操纵杆量、飞机下降率、姿态、油门等参数及其变化率之间的相关关系。
3.回归分析
回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,包括简单回归、多元回归、逐步回归、曲线回归、岭回归、逻辑回归、回归预测和残差分析等等,实际应用十分广泛。与相关分析相比,回归分析侧重于研究随机变量间的依赖关系,以便用一个变量去预测另一个变量,而相关分析侧重于发现随机变量间的相关特性。
例如,我们可以研究不同天气条件下,不同进近程序、不同自动驾驶模型或不同高度断开自动驾驶等变量与机组操纵落地的质量之间的关系。
4.统计检验
统计检验是根据抽样结果,在一定可靠性程度上对一个或多个总体分布的原假设结论进行检验的分析方法。检验结果常取决于样本统计量的数值与所假设的总体参数是否有显著差异。统计检验包括假设检验、显著性检验、卡方检验、T检验等。
例如,我们一般会将襟翼超速事件归咎于外界的风向风速变化。如果想探究机组的操纵和襟翼超速事件存在什么关系,我们可以假设机组放襟翼30的离地高度和进近最大空速间存在负相关关系,或机组放襟翼15与放襟翼30之间的间隔时间和进近最大空速间存在正相关关系。然后通过具有概率性质的反证法来对假设进行检验,最终得出统计检验结果。值得注意的是,假设只能被检验,而不能被证明。统计检验可以帮助我们否定一个假设,但不能帮助我们肯定一个假设。
二、基于QAR大数据的数据挖掘
数据挖掘是利用机器学习算法等手段来从大量数据中寻找其隐藏规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式如可视化等将找出的规律表示出来。典型的数据挖掘模型包括以下3种:
1.关联分析模型
关联分析模型用于挖掘多个变量之间的关联。如果两个或多个变量之间存在一定的关联,那么其中一个变量的状态就能通过其他变量进行预测。关联分析模型可以用于发现存在于大量QAR数据集中的关联性或相关性,从而描述了某些QAR参数同时出现的规律和模式。
例如,我们可以分析飞行员的自动驾驶使用习惯。通过了解哪些自动驾驶模式频繁地被飞行员同时使用,来帮助管理者制定管理策略,例如更改标准操作程序、设计新的训练大纲或制定针对飞行员个体的特色训练项目等等。
2.分类分析模型
分类分析模型可分为判别分析和机器学习分类。判别分析是在已知参数用某种方法已经分成若干类的情况下,确定新的参数属于哪一类的多元统计分析方法,包括距离判别法、Fisher判别法、贝叶斯判别法等。机器学习分类则是通过一定的算法实现机器自动分类,包括支持向量机、逻辑回归、决策树与回归树等等。
例如,我们可以根据一定的逻辑设定飞行员着陆操纵的几类手法,然后通过分类分析模型来将所有飞行员区分开来。然后根据飞行员着陆操纵的不同手法制定有针对性的训练或安全管理措施。
3.聚类分析模型
聚类分析模型可将物理参数或抽象参数的集合分组成由类似的对象组成的多个类,包括K均值聚类、系统聚类、最优分割、模糊聚类等。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析是一种探索性的分析,在分类的过程中,我们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。根据聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。
例如,我们可将同一条跑道的进近数据(包括高度、空速、下降率、N1等飞行参数)进行聚类分析,根据机器的分类结果,再来对分类后的进近数据进行类间对比,探究分类之间的关系,找寻分类结果的内在规律,再进行进一步研究。
三、基于QAR大数据的机队监控
基于QAR大数据的机队监控是指根据分析人员设置的监控模型,建立若干套对应表征某一类型事件发生频次、比例或风险的事件逻辑,对每个航班进行风险值评定,最终形成对机队整体运行情况的实时监控和风险预警的常态化。
机队监控模型中事件本身的触发不代表一定会对安全飞行有直接影响,但可以用于探究某一类型事件发生的风险或频次,从而帮助寻找降低这一类型事件风险的途径。对于风险事件的探究可以基于实时的统计数值,也可通过单一事件分析来深入探究具体航班的数据。
机队监控模型的建设从某种程度上来说依赖于前期大数据统计分析和数据挖掘工作的开展情况。只有当大数据统计分析和数据挖掘工作取得一定的进展,才能构建足以支撑起某类模型的结构框架或权重设置。总体来说,机队监控模型作为大数据分析的进阶阶段,体现了大数据的实时性,是大数据分析的实际应用阶段。
典型的机队监控模型包括SOP执行力模型、可控飞行撞地模型、冲偏出跑道模型、空中失控模型、不稳定进近模型等,主要涉及机队运行的核心风险及标准操作程序的执行情况监控,此处不再详细展开。
四、基于QAR大数据的风险管理
基于QAR大数据的风险管理是指充分利用大数据的四个特性,全面提升风险管理事前防范、事中控制、事后治理的防控效果,并促进QAR数据分析与应用由结果导向的管理向过程导向的管理转变的应用过程。常用的风险管理模型包括REASON模型、SHELL模型、TEM模型和BOW-TIE模型等。一般来说,基于QAR大数据的风险管理包括危险源识别、基于大数据的风险分析和挖掘、制定风险管控措施、验证措施落实情况等几个步骤。
例如短期内发生多起襟翼超速事件,可以根据SHELL模型的“人、机、软、硬、环”五种维度开展风险管理工作,判断或识别出与襟翼超速可能相关的因素,并不断重复和深入此过程,直到找出此类事件的规律和可实施、有效果的控制措施,举例如下:
1.危险源识别
将襟翼超速事件的所有信息,包括QAR、三维、机组操纵情况、机组信息、飞机信息等进行全面收集并规范保存;通过数据透视、数据相关度分析等方式,初步判断相关关系较为明显的维度,假设发现襟翼超速事件多与环境因素有关。
2.基于大数据的风险分析和挖掘
对环境因素进行详细项目拆分再进行对比,假设发现襟翼超速事件多发生在进近阶段风向存在顺风转顶风的条件下;
将此类航班(进近阶段风向存在顺风转顶风)通过大数据平台设置相应的测量值和参数,完善逻辑、测试数据准确性,并在历史数据库进行运算,并统计这些航班进近阶段最大空速与所设置襟翼的标牌速度之间的关系与其他正常航班有何区别。假设发现这些航班进近最大空速更接近或超过标牌速度;
将上述进近最大空速更接近或超过标牌速度的航班筛选出来,对飞机状态的变化、机组的操纵情况、飞行程序的执行情况等进行分解,再与相应的手册或标准程序进行对比,找出事件与人的因素的相关性。假设发现这些航班中机组普遍存在风修正偏大5-10节的情况;
综上分析过程,统计历史上所有进近阶段风向存在顺风转顶风的情况下,机组风修正偏大5-10节的航班与空速接近襟翼标牌速度10节以内的相关度。假设统计结果发现相关度为0.75,为强正相关关系。
3.制定风险管控措施
根据分析结果,制定相应的控制措施,如修改标准操作程序中关于风修正的标准,或筛选出普遍存在风修正偏大5-10节的人员,并通过模拟机训练或其他形式,纠正相关机组的行为。
4.验证措施落实情况
对控制措施制定后的航班数据进行核实和趋势监控,即验证控制措施是否有效。若措施无效,则重复1-3环节的步骤。
结语
当今社会,互联网尤其是移动互联网的发展,显著地加快了信息化向社会经济以及大众生活等方面的渗透,促进了大数据时代的到来。航空公司只有主动拥抱“大数据”,才能在提高飞行品质,进而提高飞行安全的道路上不断前进。一句话,大数据,大有可为。
私人飞机网 www.sirenji.com
本文链接地址:浅谈QAR大数据分析与应用