千讯咨询发布的《中国纸业市场发展研究及投资前景报告》显示,国际纸业公司拥有55,000名员工,年销售额超过210亿美,是世界上最大的纸浆和造纸公司。大规模的生产也会带来大规模的数据:该公司目前跟踪着全球37家工厂,近200万个活跃的数据点。国际纸业公司的PISystem会产生大量的数据,可以从这些生产数据中挖掘业务洞察力。通过使用PISystem工具深入研究如何收集和组织数据,工程师们能够将数据处理时间缩短80%以上,从而使公司新推出的机器学习计划能够更快执行。
国际纸业训练机器算法,作为其“未来之战”现代化计划的一部分国际纸业公司的工程师致力于高效地处理他们正在使用和生成的海量数据。我们的工程师们需要花费他们80%到90%的时间来检索和清理数据,我们支付工资让他们进行决策并改进我们的流程。我们需要以适当的频率向工程师提供正确的数据,以便于他们工作。
几年前,公司在减少数据检索时间方面做了一些努力。使用PIOLEDB工具后,工程师可以将PISystem数据存档视为关系数据库。通过运行SQL查询可以将提取出来的数据自动填充到MicrosoftExcel电子表格中,而无需在Excel内运行耗时的计算。采用这种方法后,国际纸业能够将审计中经常使用的数据检索过程从3-12小时缩短到15-45分钟。
这是一个良好的开端,但后面还有更大的挑战。2017年,国际纸业发起了一个以数据和机器学习为核心的试点项目,作为其“未来之战”现代化计划的一部分。为了训练机器算法,工程师需要同时在数千个标签上提取几年的历史数据并将这些数据输入机器学习引擎。
为了获取数据检索过程所需的时间值,Smith提出了一个他称之为“年标签”的时间单位:即从单个PI数据标签中检索一年的信息所需的时间。因为不同的标签收集数据的间隔不同,所以各个标签的“年标签”值不尽相同,有些甚至差异极大。
Smith有关检索数据所需时间的初步估计发人深省。使用10,000个数据标签一到三年的数据,数据采集间隔为一分钟,会产生大约160亿行数据,整个过程需要耗时数月。对于我们的数据标签,如果所有标签都是上面这种情形,那么读取三年的数据,将需要100到200天的时间来检索数据。我不了解其他公司的情况,但我们的副总裁可不想等待200天才开始这个项目。
国际纸业创建了另外的数据标签,每隔一分钟而不是每隔1-2秒写一次数据,从而简化了大数据机器学习的数据提取过程。探索如何能减少不必要的存储与数据处理。他发现,在一家造纸厂,不到百分之一的数据标签占据了存档空间的近37%。对于不同类型的分析,可能需要以不同的频率采集数据。为采集频率密集的标签同时设置了较低的采集频率,以较长的间隔来收集相同的数据,在确保数据存档丰富性的同时,实现更快的检索速度。
对于某些数据标签,密集的数据收集频率对于存档很重要,但并非所有分析都需要细粒度的数据。在对一组数据标签进行分析时,与一秒钟间隔的数据相比,一分钟间隔的数据其数据读取时间可以减少85%。对数据进行适当的管理和组织,也会使数据检索时间在原来长度的基础上大幅减少。在一项分析中,Smith使用了50个数据标签并在Assetframework为它们构建了一个结构,这一举措将读取一年数据的时间从15分钟以上缩短到5分钟以内。通过使用数据平均值而不是工厂仪表上传感器的原始值,将另一项分析的时间从14小时缩短到40秒。
仔细研究公司的数据如何生成、存储和处理,这一工作平淡无奇,但它所产生的结果却令人瞩目。所有系统都需要管理者,每个人都想成为架构师。但我们更需要脚踏实地的数据管理员。
相关研究报告
纸业项目可行性研究报告
中国纸业行业发展趋势分析预测报告
中国纸业市场前景调查分析报告