人类文明的发展是从认识现实世界到创造信息世界的过程,是对世界认知的一个过程,历经初步认识世界,以信息辅助记忆,以信息记录和传承,以信息交流与传播,以信息再次认识世界的历史阶段。数据是人们通过信息世界认识现实世界的基础和智慧源泉,数据中包括了全部事实、经验、信息。
可靠性系统工程是研究产品全寿命过程中与故障做斗争的工程技术,它运用系统科学与系统工程的理论和方法,从系统的整体性及其同外界环境的辩证关系出发,认知产品发生故障的机理与规律,研究产品故障预防、预测、诊断与修复的理论与方法。本书就是讲述如何利用大数据分析手段揭示产品的故障规律,如何利用大数据手段开展故障的预防与预测。
全书共分11章。第1章大数据概述,对大数据的特征、发展历程,与可靠性工程中对数据分析的需求进行了描述;第2章大数据与数据挖掘,介绍了数据挖掘技术,及大数据条件下数据挖掘技术的最新前沿研究;第3章大数据在可靠性工程中的应用,介绍了传统数据分析方法在可靠性工程中的运用,与大数据分析方法在可靠性工程中的应用前景;第4章故障的关联规则分析方法,介绍如何利用关联规则挖掘故障与故障、故障与故障征兆之间的关联关系;第5章故障/健康监控的时间序列模式分析方法,利用时序特性分析方法,揭示产品故障的时间序列特性;第6章基于故障多状态集的序列模式挖掘,针对故障多态的特性,提出多状态集序列模式挖掘方法;第7章故障信息聚类分析,利用聚类分析的基本思想,开展故障分类研究;第8章基于粗糙集理论的故障因素分析方法,介绍了利用粗糙集模型对数据集中的缺失数据、噪声数据和错误数据的处理;第9章经典因子分析和回归分析方法,介绍了多元线性回归与非线性回归,及其在健康评估中的应用;第10章高维数据回归预测分析,介绍了高维数据环境条件下,预测模型的回归建模方法;第11章可靠性工程中的非参数统计,利用非参数统计方法实现对数据总体性质的统计估计或假设检验。
感谢国家自然科学基金项目(71971013、71871003、71501007、71332003)、中央高校基本〖JP2〗科研业务费专项(YWF-19-BJ-J-330)、民用飞机专项(MJ-2017-J-92)、航空科学基金项目(2017ZG51081)、技术基础项目、北京航空航天大学研究生教育与发展研究专项基金等对本书出版的支持。
本书在编写过程中,作者得到了北京航空航天大学魏法杰教授、杨敏副教授等专家的指导和帮助;张佳宁、张洁、郭亚兵、鲁雪峰、高春雨、董健瑞、胡陈、乔小朵、谢悦、李磊、
李小涵、钱思霖、雷景淞、朱川、左晓荣、周宇亮、徐振中、苑星龙、尤锰、刘英来、徐星星、张思悦、杨培等同学在本书部分章节的计算、修改和打印过程中做了很多工作,在此一并致谢!
本书可作为工科硕士研究生数据分析类课程的基础教材,也可以作为对大数据分析问题感兴趣的各专业高年级学生的参考教材,还可以作为管理、经济、生物、工程、心理、医疗等科研人员的参考读物。
运用大数据方法解决产品可靠性问题是可靠性工程中面临的新课题,有一些问题还需要深入研究和实践,加之作者知识和经验的局限性,书中的缺点在所难免,诚望读者提出宝贵意见和建议。
第1章大数据概述
1.1什么是大数据
1.1.1大数据的定义及特征
1.1.2大数据结构类型
1.1.3大数据实例
1.2大数据发展历程
1.3大数据分析
1.4可靠性工程中的数据分析
1.5相关技术及工具
1.5.1Hadoop介绍
1.5.2R软件介绍
1.5.3AMPL/CPLEX软件介绍
1.5.4Clementine介绍
1.5.5其他大数据处理工具
第2章大数据与数据挖掘
2.1数据管理与数据仓库
2.1.1数据、信息和知识
2.1.2数据爆炸
2.1.3数据仓库
2.1.4云计算与云存储
2.2数据挖掘概述
2.2.1数据挖掘的历史、功能和目的
2.2.2数据挖掘的内涵和基本特征
2.2.3数据挖掘与统计学
2.2.4数据挖掘的一般过程
2.3基于数据挖掘的模式识别
_ueditor_page_break_tag_
2.3.1探索性数据分析
2.3.2数据挖掘与机器学习
2.3.3数据挖掘与智能决策
2.3.4数据挖掘与神经网络
2.4大数据条件下的数据挖掘技术的最新前沿研究
2.4.1数据挖掘的可视化
2.4.2基于云技术的数据挖掘
2.4.3语音数据挖掘
2.4.4图像数据挖掘
2.4.5文本数据挖掘
第3章大数据在可靠性工程中的应用
3.1传统数据分析方法
3.1.1基于概率统计的分析方法
3.1.2基于时间维度的分析方法
3.1.3基于失效物理的分析方法
3.1.4传统分析方法的优势与局限
3.2大数据分析的特点
3.2.1数据全体VS数据样本
3.2.2非结构化数据VS结构化数据
3.2.3关联分析VS因果分析
3.3大数据分析揭示故障规律
3.3.1可靠性工程中的数据
3.3.2故障激发因素的复杂性
3.3.3可靠性工程大数据分析前景
第4章故障的关联规则分析
4.1关联规则的基本知识
4.1.1关联规则的定义、相关概念与一般过程
4.1.2频繁模式发现
4.1.3Apriori相关算法
4.1.4FP-growth算法
_ueditor_page_break_tag_
4.1.5应用及案例
4.2动态关联规则挖掘
4.2.1问题描述及需求
4.2.2动态关联规则新定义
4.2.3动态关联规则挖掘算法
4.2.4动态决策规则
4.3基于相关兴趣度的关联规则挖掘
4.3.1相关兴趣度的引入意义
4.3.2几种典型兴趣度度量
4.3.3强关联规则与挖掘算法
4.3.4反向关联规则与挖掘算法
4.3.5例外规则与挖掘算法
4.4故障诊断与数据挖掘技术
4.4.1设备故障诊断概述
4.4.2数据挖掘在故障诊断中的应用
4.4.3数据挖掘在故障诊断中应用的发展趋势
4.5考虑时间窗口的关联规则挖掘
4.5.1问题的提出及意义
4.5.2时间窗口的表达与运算方法
4.5.3基于时间窗口的频繁项挖掘算法
4.5.4带时间窗口的关联规则挖掘算法(股票)
4.6周期性关联规则挖掘
4.6.1问题的提出及意义
4.6.2周期关联规则的分类
4.6.3周期性关联规则的定义
4.6.4发现周期性关联规则
4.7基于约束的关联规则挖掘
4.7.1施加约束的原因
4.7.2约束的定义
4.7.3约束的描述
4.7.4约束的性质分类及其实现
第5章故障/健康监控的时间序列模式分析
5.1时序特性的分析方法
5.1.1趋势分析法
5.1.2统计分析法
5.1.3特征分析法
5.1.4周期性分析法
5.2基本分析模型
5.2.1趋势模型
5.2.2季节模型
5.2.3ARMA模型
5.2.4ARCH类模型
_ueditor_page_break_tag_
5.2.5协整和误差修正模型
5.3一元时间序列挖掘
5.3.1时间序列预处理
5.3.2时间序列压缩(时间序列离散化)
5.3.3时间序列相似性度量
5.3.4序列模式挖掘算法
5.4并行多序列时序模式挖掘
5.4.1问题的提出与意义
5.4.2并行序列模式挖掘
5.4.3并行序列模式改进算法
第6章基于故障多状态集的序列模式挖掘
6.1问题的提出和意义
6.1.1故障与健康状态监控问题
6.1.2从状态监控到状态预警
6.2多状态集的数学定义
6.2.1状态相关定义
6.2.2状态转换图
6.3多状态集序列模式挖掘方法
6.3.1状态及多状态序列
6.3.2频繁多状态序列
6.3.3发现状态序列模式的一般步骤
6.3.4模式的支持度、置信度与覆盖度
6.3.5强模式挖掘
6.3.6模式的因素集回溯分析
6.4带时间窗口的状态集序列模式挖掘
6.4.1带时间窗口的意义
6.4.2带时间窗口的状态集序列模式的定义
6.4.3频繁模式的发现算法
6.4.4模式挖掘的一般过程
6.4.5强的带时间窗口的状态集序列模式的挖掘算法
6.4.6因素集的 FSITW的挖掘算法
6.4.7周期性状态集序列模式的挖掘算法
6.5基于多状态集序列模式挖掘的设备健康检测与预警方法
6.5.1设备健康管理
6.5.2设备健康监控理论与技术
_ueditor_page_break_tag_
第7章故障信息聚类分析
7.1聚类分析的基本思想
7.2聚类统计量
7.2.1Q型聚类统计量——距离
7.2.2R型聚类统计量——相似系数
7.3系统聚类法
7.4基于划分方法的聚类
7.4.1K-means(均值)算法
7.4.2K-medoids(中心点)算法
7.5其余各类方法
7.5.1层次聚类方法
7.5.2基于密度的方法
7.5.3基于网格的方法
7.5.4当前聚类研究方向
7.6模糊聚类分析
7.6.1模糊距离关系
7.6.2模糊相似关系
7.6.3模糊K-均值聚类
7.7混合属性对象的聚类分析
7.7.1聚类对象的属性类型
7.7.2分类型属性的相似定义
7.7.3混合属性的对象聚算法
7.8故障信息聚类分析案例
7.8.1数据准备
7.8.2故障对象的聚类分析
7.8.3基于故障描述信息的文本聚类分析
第8章基于粗糙集理论的故障因素分析
8.1经典粗糙集理论
8.1.1决策系统
8.1.2不可分辨关系
8.1.3上近似与下近似
8.1.4粗糙集的精确度与隶属度
8.1.5决策算法
8.2可变精度的粗糙集理论
8.2.1数据噪声、缺失与错误
8.2.2可变精度的定义
8.2.3可变精度的上近似和下近似
8.2.4粗糙集的品质评价
_ueditor_page_break_tag_
8.3基于近似不可分辨关系的粗糙集理论
8.3.1相似度定义及基于相似关系的数据模型
8.3.2完全依赖与近似依赖
8.3.3模糊粗糙集理论
8.3.4基于Φ-近似等价关系的粗糙集理论
8.4基于线性规划的粗糙集优化模型
8.4.1线性规划理论
8.4.2基于混合整数线性规划的粗糙集优化模型
8.5基于粗糙集的柴油机故障诊断应用案例
8.5.1故障原因的偶然性、综合性和隐蔽性及传统故障机理 分析的不足
8.5.2基于粗糙集的柴油机故障诊断模型
8.5.3基于混合整数线性规划的决策系统优化建模
第9章因子分析及回归分析
9.1样本因子分析及参数估计
9.1.1样本数据因子分析
9.1.2参数的统计意义
9.1.3因子载荷矩阵的估计
9.1.4因子旋转和因子得分
9.2多元线性回归分析
9.2.1多元线性回归模型
9.2.2参数估计
9.2.3回归模型的检验
9.2.4回归诊断
9.3自变量的选择与逐步回归
9.3.1穷举法
9.3.2逐步回归法
9.4非线性回归模型
9.4.1内在线性回归模型
9.4.2内在非线性回归模型
9.5Logistic回归模型
9.5.1线性Logistic回归模型
_ueditor_page_break_tag_
9.5.2参数的最大似然估计
9.6基于Logistic回归的机械健康状态评估
9.6.1设备状态健康评估Logistic回归模型的建立
9.6.2Logistic回归模型参数的选择
第10章高维数据回归预测分析
10.1模型选择
10.1.1偏差—方差分解
10.1.2模型选择准则
10.1.3回归变量选择
10.2广义线性模型
10.2.1二点分布回归
10.2.2指数族概率分布
10.2.3广义线性回归
10.2.4参数估计
10.2.5模型的假设检验
10.3高维回归系数压缩
10.3.1岭回归
10.3.2Lasso回归
10.3.3Shooting算法
10.3.4路径算法
10.3.5算法的R语言实现
10.4面板数据回归模型
10.4.1面板数据
10.4.2面板回归模型
10.5基于支持向量机的预测模型
10.5.1支持向量机分类
10.5.2支持向量机回归
10.5.3支持向量机模型优化
10.6无人机重着陆预测案例
10.6.1面板数据预测模型
_ueditor_page_break_tag_
10.6.2支持向量机预测模型
10.6.3模型评价
第11章可靠性工程中的非参数统计
11.1单样本问题
11.1.1符号检验
11.1.2趋势检验
11.1.3游程检验
11.1.4对称中心的检验
11.2两样本问题
11.2.1独立样本位置参数的检验
11.2.2独立样本刻度参数的检验
11.2.3配对样本参数的检验
11.3多样本问题
11.3.1多个独立样本的检验
11.3.2多个相关样本的检验
11.4秩相关分析
11.4.1Spearman秩相关系数
11.4.2Kendall τ秩相关系数
11.5二维列联表
11.5.1Pearson χ2独立性检验
11.5.2Fisher精确检验
11.6案例分析
11.6.1柴油机厂质量可靠性问题调研
11.6.2产品改进措施分析
参考文献