第2章 数据质量自检:4个维度决定90%成败
上一章讲了“场景适不适合上AI”。这一章聊一个更接地气的问题:你的数据到底行不行?
一、我早期踩过的一个坑
2年前做第一个工序SOP项目,我犯过一个挺低级的错误。
客户给了一个月的历史数据,看起来挺全。我们加班加点训练模型,实验室测试准确率95%,信心满满去了现场。
结果一上线,准确率直接掉到60%。
客户质疑,团队有点沮丧。排查后才发现原因:实验室用的是“理想工况”数据——光照均匀、震动小、工人按标准动作操作。但现场光照差、震动大、工人操作习惯五花八门。模型学到的东西,到现场根本不适用。
从那以后我给自己定了一条硬规矩:不管客户催得多急,必须先花时间把数据摸透。数据不行,模型再牛也是白搭。
下面这四件事,是我现在每个项目都会做的。你也可以照着做。
二、第一件事:检查数据齐不齐
拿到数据后,我先问自己三个问题:
1. 关键字段有没有缺的?
比如做设备故障预测,温度、振动、电流三个参数缺一个,模型就没法学。有一次客户给了两年的数据,我一看,振动数据缺了四个月——那四个月刚好发生过故障。等于最关键的样本丢了。
2. 时间跨度够不够?
有些项目需要看季节性变化(比如夏天温度高影响设备),只给一个月的数据肯定不行。我一般要求至少覆盖一个完整的生产周期。
3. 异常样本多不多?
缺陷检测项目里,正常样本一大堆,缺陷样本只有几十张,这种情况我见过太多次了。模型训练出来,永远只会说“正常”,因为没见过坏的。
一个实用动作:拿到数据后,先跑个统计,看看每个字段的缺失率。缺失超过10%,先补数据再往下走。
真实案例:某铸造缺陷检测项目,客户说有数据。我一看,过去一年只有40张缺陷照片。我跟客户说:这个量不够,至少1000张。客户有点不乐意,但还是花了两个月重新采集标注。项目启动后一路顺利,现在那套系统已经跑了两年。
三、第二件事:验证数据准不准
数据齐了,还得看它真不真实。工业现场的数据经常有“水分”。
我遇到过几种情况:
-
传感器漂移:用久了读数偏了10%,但没人发现
-
人工录入错误:工人填错了,把良品填成不良品
-
标准不统一:甲班觉得这个缺陷算“轻微”,乙班算“严重”
我的验证方法:随机抽50条数据,跑去现场核对。看看记录的温度和实际温度差多少,看看标注的缺陷是不是真的那个缺陷。
一个真实案例:某化工项目,客户给了三年的温度数据。我去现场一看,那台传感器换了两次型号,不同型号的读数偏差很大。客户之前完全没意识到。后来我们把数据按时间分段处理,前后花了两周,但避免了项目踩大坑。
四、第三件事:看看数据能不能对上
工业企业的数据通常散落在不同系统里:MES、ERP、PLC、人工报表……这些数据能不能对得上,是个大问题。
典型场景:
-
MES里记录这个批次是良品,但质检系统里标记的是不良品
-
同一个物料,ERP里叫“PCB-A01”,到MES里变成“A01板”
-
时间戳对不上,MES用北京时间,PLC用设备本地时间
我的做法:在项目启动前,要求客户把关键数据的口径统一。缺陷编码、物料编码、时间格式,全部对齐。这件事听起来简单,但做起来往往要花一两周。不过非常值得——很多项目后期扯皮,根源就是数据对不上。
五、第四件事:确认数据能不能拿到
这是最容易被忽略的一步。数据就在那里,但你未必拿得到。
常见障碍:
-
数据存在老旧PLC里,需要找供应商解密,耗时一两个月
-
跨部门审批,IT说可以,生产说不行,来回踢皮球
-
采集数据需要停产配合,客户不愿意
我的原则:在签合同之前,先把数据获取路径摸清楚。谁审批?要多久?会不会影响生产?如果答案不明确,我会在合同里把责任写清楚——比如“甲方需在合同签订后两周内提供XXX数据”。这不是不信任客户,是吃过太多亏了。
六、一个实用的数据质量评分表
为了方便快速判断,我设计了一个简单的评分表。每个维度1-5分,打完就知道数据准备度。
完整性(关键字段缺失率)
-
5分:缺失<5%
-
4分:缺失5%-10%
-
3分:缺失10%-20%
-
2分:缺失20%-30%
-
1分:缺失>30%
准确性(误差范围)
-
5分:误差<3%
-
4分:误差3%-5%
-
3分:误差5%-10%
-
2分:有参考价值但误差大
-
1分:完全不可信
一致性(跨系统对齐)
-
5分:完全一致
-
4分:大部分一致,有小问题
-
3分:经常对不上
-
2分:口径混乱
-
1分:完全不一致
可获取性(拿数据的难度)
-
5分:实时在线采集
-
4分:1周内能拿到
-
3分:需要2-4周审批
-
2分:需要大改造
-
1分:基本拿不到
总分判断:
-
≥18分:数据质量好,可以直接推进
-
12-17分:中等质量,可以做POC,但需要预留数据治理预算
-
<12分:数据基础差,先做数据治理再谈AI
七、一个真实的自检案例
某3C电子厂做AI质检项目,我帮他们做了数据自检:
| 维度 | 得分 | 情况 |
|---|---|---|
| 完整性 | 4分 | 历史数据基本齐全,但缺了去年一个月的记录 |
| 准确性 | 3分 | 部分传感器漂移,误差约5% |
| 一致性 | 3分 | MES和质检系统的缺陷编码经常对不上 |
| 可获取性 | 4分 | 审批已通过,一周内能拿到数据 |
| 总分 | 14分 | 中等质量,可以做POC |
针对发现的问题,我们做了三件事:
-
花两周统一了缺陷编码标准
-
校准了有漂移的传感器
-
补采了一个月的关键数据
数据质量提升到18分后,项目才正式启动。最终9个月回本,客户很满意,后来还介绍了两个新客户。
八、工业数据特有的几个“隐形坑”
最后说几个工业数据里常见的坑,很多人第一次做项目都会栽进去。
坑一:样本极度不平衡
正常样本10万张,缺陷样本只有100张。模型训练出来,永远只会说“正常”,因为没见过坏的。
我的建议:每类缺陷至少准备1000张样本。如果不够,先想办法采集或合成,不要硬上。
坑二:环境变了,数据就废了
同一套模型,换一条产线准确率掉20%。光照、震动、传感器型号都会影响。
我的建议:采集数据时,尽量覆盖不同工况、不同环境。不要只在“最佳工况”下采。
坑三:数据管道不稳定
上线时效果很好,三个月后越来越差。问题往往不在模型,而在数据管道——传感器偶发故障、数据延迟、预处理逻辑变了。
我的建议:建立数据质量监控机制,每周检查一次关键指标。发现异常及时处理。
《工业AI落地实战指南》持续更新中。
如果你正在评估数据质量,不确定怎么打分,欢迎添加大白微信wxqzy68,一起讨论。
本文由 大白智能 作者:yang 发表,其版权均为 大白智能 所有,文章内容系作者个人观点,不代表 大白智能 对观点赞同或支持。如需转载,请注明文章来源。
yang