工业数据收集的问题
一、工业大数据是什么
相关专家介绍,工业大数据是以工业系统的数据搜集、特征分析为基础,对设备、装备的质量和生产效率以及产业链进行更有效的优化管理,使制造过程的信息透明化、提升效率、保障质量,并且低成本、低资源消耗地满足客户定制化要求。
而根据蜂迷君之前看过的一篇论文显示,工业过程收集数据的一个特点是数据本身的质量比较差,也就是说,数据本身经常性地存在误差。
因而,利用工业过程本身数据进行建模时,模型误差在很大程度上来源于数据本身。利用这些数据建模时,经常发现模型误差小到一定程度以后就很难继续小下去了。
另外,平均意义下误差接近的模型,其预报结果可能有很大的差别。因此,很难单纯用模型的误差来衡量模型的好坏。
虽然理论界对这个问题非常难以研究,但对实际使用者来说却是至关重要的。这样一来,尽管理论界热衷的许多时髦的算法可以提高模型精度,但仍难以用于指导生产。
二、工业数据分析的常见问题
自变量检测不准确在实际工业生产过程中是司空见惯的事情。下面的几种具体情况在每一个生产车间几乎都是普遍存在的:
1、检验仪表本身有误差或者受到干扰。
某些工艺参数经常性的要求固定在特定数值上,这样,检测到的参数变化在很大程度上是误差本身。
2、检验过程中自变量和因变量的对应不准确。
在流程行业中,因变量和自变量往往在不同的检验工序中,一次检验往往用特定部位或者平均值来代替一批物料特性。但是,一批物料特性往往是不均匀的,它对分析问题造成的后果与检验不准确是等价的。
3、数据的记录不准确,重要数据有丢失或者忽略。
对于有些应用来说,模型仅仅是为了描述一个长期存在的现实过程,这个时候强调模型误差要小,而不强调无偏性。对于另外一些问题来说,建模的目的就是为了改进生产工艺。一旦工艺参数改变,生产过程也就改变了,数据的分布也就改变了。
这个时候可能更多需要的是模型的外推性,对无偏性的要求就比较强了。如果在数据挖掘的时候使用有偏估计,分析结果就会出现一些似是而非的结论,其结论可信度就会受到影响,从而影响模型的使用。
在实际工业生产过程中,某些关键变量的控制范围往往很小,经常小到与检验误差接近的水平。
在钢铁行业中,从成分到工艺的各个检验环节几乎都存在误差,某些因素的影响被低估50%以上也是很常见的。对于统计建模来说,模型误差大小未必反映其接近客观真实的程度,但是,检验模型是否接近客观真实却又不得不依赖于误差分析。
对于建立模型来说,评判一个模型是否合理必然要考虑误差之外的因素,比如分析方法的合理性和结论的合理性。
上述认识对于建立预测模型是非常重要的:作用被低估必然引发检验变量对预测的影响力下降。当检验存在误差的时候,那些对减少预报误差作用不大的变量未必是不重要的变量。这时,虽然有些分析对减少预报误差本身的作用不大,但对分析问题却是非常重要。
于是,就会产生这样的现象:减少误差对确定特定参数非常重要,但确定特定参数对减少误差却并不非常重要。
三、结语
当模型需要外推使用的时候,常常需要参数估计是无偏的。这意味着,在实际应用过程中,单纯追求减少模型误差未必是明智的。而那些以追求误差最小为惟一目标的研究方法,比如人工神经元方法,是不可能解决这些问题的。建模过程必须重视数据的测量过程。
目前大多数企业都相应了工业4.0的号召开始重视数据收集,然而收集数据的各种程序存在诸多缺陷,这些问题都需要我们注意,毕竟只有正确的数据才是数据分析的基础。
本文部分观点转载于《工业过程数据挖掘的几个重要问题》
相关专家介绍,工业大数据是以工业系统的数据搜集、特征分析为基础,对设备、装备的质量和生产效率以及产业链进行更有效的优化管理,使制造过程的信息透明化、提升效率、保障质量,并且低成本、低资源消耗地满足客户定制化要求。
而根据蜂迷君之前看过的一篇论文显示,工业过程收集数据的一个特点是数据本身的质量比较差,也就是说,数据本身经常性地存在误差。
因而,利用工业过程本身数据进行建模时,模型误差在很大程度上来源于数据本身。利用这些数据建模时,经常发现模型误差小到一定程度以后就很难继续小下去了。
另外,平均意义下误差接近的模型,其预报结果可能有很大的差别。因此,很难单纯用模型的误差来衡量模型的好坏。
虽然理论界对这个问题非常难以研究,但对实际使用者来说却是至关重要的。这样一来,尽管理论界热衷的许多时髦的算法可以提高模型精度,但仍难以用于指导生产。
二、工业数据分析的常见问题
自变量检测不准确在实际工业生产过程中是司空见惯的事情。下面的几种具体情况在每一个生产车间几乎都是普遍存在的:
1、检验仪表本身有误差或者受到干扰。
某些工艺参数经常性的要求固定在特定数值上,这样,检测到的参数变化在很大程度上是误差本身。
2、检验过程中自变量和因变量的对应不准确。
在流程行业中,因变量和自变量往往在不同的检验工序中,一次检验往往用特定部位或者平均值来代替一批物料特性。但是,一批物料特性往往是不均匀的,它对分析问题造成的后果与检验不准确是等价的。
3、数据的记录不准确,重要数据有丢失或者忽略。
对于有些应用来说,模型仅仅是为了描述一个长期存在的现实过程,这个时候强调模型误差要小,而不强调无偏性。对于另外一些问题来说,建模的目的就是为了改进生产工艺。一旦工艺参数改变,生产过程也就改变了,数据的分布也就改变了。
这个时候可能更多需要的是模型的外推性,对无偏性的要求就比较强了。如果在数据挖掘的时候使用有偏估计,分析结果就会出现一些似是而非的结论,其结论可信度就会受到影响,从而影响模型的使用。
在实际工业生产过程中,某些关键变量的控制范围往往很小,经常小到与检验误差接近的水平。
在钢铁行业中,从成分到工艺的各个检验环节几乎都存在误差,某些因素的影响被低估50%以上也是很常见的。对于统计建模来说,模型误差大小未必反映其接近客观真实的程度,但是,检验模型是否接近客观真实却又不得不依赖于误差分析。
对于建立模型来说,评判一个模型是否合理必然要考虑误差之外的因素,比如分析方法的合理性和结论的合理性。
上述认识对于建立预测模型是非常重要的:作用被低估必然引发检验变量对预测的影响力下降。当检验存在误差的时候,那些对减少预报误差作用不大的变量未必是不重要的变量。这时,虽然有些分析对减少预报误差本身的作用不大,但对分析问题却是非常重要。
于是,就会产生这样的现象:减少误差对确定特定参数非常重要,但确定特定参数对减少误差却并不非常重要。
三、结语
当模型需要外推使用的时候,常常需要参数估计是无偏的。这意味着,在实际应用过程中,单纯追求减少模型误差未必是明智的。而那些以追求误差最小为惟一目标的研究方法,比如人工神经元方法,是不可能解决这些问题的。建模过程必须重视数据的测量过程。
目前大多数企业都相应了工业4.0的号召开始重视数据收集,然而收集数据的各种程序存在诸多缺陷,这些问题都需要我们注意,毕竟只有正确的数据才是数据分析的基础。
本文部分观点转载于《工业过程数据挖掘的几个重要问题》