第2章 数据质量自检:4个维度决定90%成败

上一章讲了“场景适不适合上AI”。这一章聊一个更接地气的问题:你的数据到底行不行?


一、我早期踩过的一个坑

2年前做第一个工序SOP项目,我犯过一个挺低级的错误。

客户给了一个月的历史数据,看起来挺全。我们加班加点训练模型,实验室测试准确率95%,信心满满去了现场。

结果一上线,准确率直接掉到60%。

客户质疑,团队有点沮丧。排查后才发现原因:实验室用的是“理想工况”数据——光照均匀、震动小、工人按标准动作操作。但现场光照差、震动大、工人操作习惯五花八门。模型学到的东西,到现场根本不适用。

从那以后我给自己定了一条硬规矩:不管客户催得多急,必须先花时间把数据摸透。数据不行,模型再牛也是白搭。

下面这四件事,是我现在每个项目都会做的。你也可以照着做。


二、第一件事:检查数据齐不齐

拿到数据后,我先问自己三个问题:

1. 关键字段有没有缺的?
比如做设备故障预测,温度、振动、电流三个参数缺一个,模型就没法学。有一次客户给了两年的数据,我一看,振动数据缺了四个月——那四个月刚好发生过故障。等于最关键的样本丢了。

2. 时间跨度够不够?
有些项目需要看季节性变化(比如夏天温度高影响设备),只给一个月的数据肯定不行。我一般要求至少覆盖一个完整的生产周期。

3. 异常样本多不多?
缺陷检测项目里,正常样本一大堆,缺陷样本只有几十张,这种情况我见过太多次了。模型训练出来,永远只会说“正常”,因为没见过坏的。

一个实用动作:拿到数据后,先跑个统计,看看每个字段的缺失率。缺失超过10%,先补数据再往下走。

真实案例:某铸造缺陷检测项目,客户说有数据。我一看,过去一年只有40张缺陷照片。我跟客户说:这个量不够,至少1000张。客户有点不乐意,但还是花了两个月重新采集标注。项目启动后一路顺利,现在那套系统已经跑了两年。


三、第二件事:验证数据准不准

数据齐了,还得看它真不真实。工业现场的数据经常有“水分”。

我遇到过几种情况:

  • 传感器漂移:用久了读数偏了10%,但没人发现

  • 人工录入错误:工人填错了,把良品填成不良品

  • 标准不统一:甲班觉得这个缺陷算“轻微”,乙班算“严重”

我的验证方法:随机抽50条数据,跑去现场核对。看看记录的温度和实际温度差多少,看看标注的缺陷是不是真的那个缺陷。

一个真实案例:某化工项目,客户给了三年的温度数据。我去现场一看,那台传感器换了两次型号,不同型号的读数偏差很大。客户之前完全没意识到。后来我们把数据按时间分段处理,前后花了两周,但避免了项目踩大坑。


四、第三件事:看看数据能不能对上

工业企业的数据通常散落在不同系统里:MES、ERP、PLC、人工报表……这些数据能不能对得上,是个大问题。

典型场景

  • MES里记录这个批次是良品,但质检系统里标记的是不良品

  • 同一个物料,ERP里叫“PCB-A01”,到MES里变成“A01板”

  • 时间戳对不上,MES用北京时间,PLC用设备本地时间

我的做法:在项目启动前,要求客户把关键数据的口径统一。缺陷编码、物料编码、时间格式,全部对齐。这件事听起来简单,但做起来往往要花一两周。不过非常值得——很多项目后期扯皮,根源就是数据对不上。


五、第四件事:确认数据能不能拿到

这是最容易被忽略的一步。数据就在那里,但你未必拿得到。

常见障碍

  • 数据存在老旧PLC里,需要找供应商解密,耗时一两个月

  • 跨部门审批,IT说可以,生产说不行,来回踢皮球

  • 采集数据需要停产配合,客户不愿意

我的原则:在签合同之前,先把数据获取路径摸清楚。谁审批?要多久?会不会影响生产?如果答案不明确,我会在合同里把责任写清楚——比如“甲方需在合同签订后两周内提供XXX数据”。这不是不信任客户,是吃过太多亏了。


六、一个实用的数据质量评分表

为了方便快速判断,我设计了一个简单的评分表。每个维度1-5分,打完就知道数据准备度。

完整性(关键字段缺失率)

  • 5分:缺失<5%

  • 4分:缺失5%-10%

  • 3分:缺失10%-20%

  • 2分:缺失20%-30%

  • 1分:缺失>30%

准确性(误差范围)

  • 5分:误差<3%

  • 4分:误差3%-5%

  • 3分:误差5%-10%

  • 2分:有参考价值但误差大

  • 1分:完全不可信

一致性(跨系统对齐)

  • 5分:完全一致

  • 4分:大部分一致,有小问题

  • 3分:经常对不上

  • 2分:口径混乱

  • 1分:完全不一致

可获取性(拿数据的难度)

  • 5分:实时在线采集

  • 4分:1周内能拿到

  • 3分:需要2-4周审批

  • 2分:需要大改造

  • 1分:基本拿不到

总分判断

  • ≥18分:数据质量好,可以直接推进

  • 12-17分:中等质量,可以做POC,但需要预留数据治理预算

  • <12分:数据基础差,先做数据治理再谈AI


七、一个真实的自检案例

某3C电子厂做AI质检项目,我帮他们做了数据自检:

维度 得分 情况
完整性 4分 历史数据基本齐全,但缺了去年一个月的记录
准确性 3分 部分传感器漂移,误差约5%
一致性 3分 MES和质检系统的缺陷编码经常对不上
可获取性 4分 审批已通过,一周内能拿到数据
总分 14分 中等质量,可以做POC

针对发现的问题,我们做了三件事:

  • 花两周统一了缺陷编码标准

  • 校准了有漂移的传感器

  • 补采了一个月的关键数据

数据质量提升到18分后,项目才正式启动。最终9个月回本,客户很满意,后来还介绍了两个新客户。


八、工业数据特有的几个“隐形坑”

最后说几个工业数据里常见的坑,很多人第一次做项目都会栽进去。

坑一:样本极度不平衡
正常样本10万张,缺陷样本只有100张。模型训练出来,永远只会说“正常”,因为没见过坏的。
我的建议:每类缺陷至少准备1000张样本。如果不够,先想办法采集或合成,不要硬上。

坑二:环境变了,数据就废了
同一套模型,换一条产线准确率掉20%。光照、震动、传感器型号都会影响。
我的建议:采集数据时,尽量覆盖不同工况、不同环境。不要只在“最佳工况”下采。

坑三:数据管道不稳定
上线时效果很好,三个月后越来越差。问题往往不在模型,而在数据管道——传感器偶发故障、数据延迟、预处理逻辑变了。
我的建议:建立数据质量监控机制,每周检查一次关键指标。发现异常及时处理。

《工业AI落地实战指南》持续更新中。
如果你正在评估数据质量,不确定怎么打分,欢迎添加大白微信wxqzy68,一起讨论。

本文由 大白智能 作者:yang 发表,其版权均为 大白智能 所有,文章内容系作者个人观点,不代表 大白智能 对观点赞同或支持。如需转载,请注明文章来源。

发表评论

This site is protected by wp-copyrightpro.com