首页 - 文章 - 工业AI落地实战 - 正文

第2章数据质量自检：4个维度决定90%成败

yang 工业AI落地实战 2026年5月24日

342 4

上一章讲了“场景适不适合上AI”。这一章聊一个更接地气的问题：你的数据到底行不行？

本文目录 隐藏

一、我早期踩过的一个坑

2年前做第一个工序SOP项目，我犯过一个挺低级的错误。

客户给了一个月的历史数据，看起来挺全。我们加班加点训练模型，实验室测试准确率95%，信心满满去了现场。

结果一上线，准确率直接掉到60%。

客户质疑，团队有点沮丧。排查后才发现原因：实验室用的是“理想工况”数据——光照均匀、震动小、工人按标准动作操作。但现场光照差、震动大、工人操作习惯五花八门。模型学到的东西，到现场根本不适用。

从那以后我给自己定了一条硬规矩：不管客户催得多急，必须先花时间把数据摸透。数据不行，模型再牛也是白搭。

下面这四件事，是我现在每个项目都会做的。你也可以照着做。

二、第一件事：检查数据齐不齐

拿到数据后，我先问自己三个问题：

1. 关键字段有没有缺的？
比如做设备故障预测，温度、振动、电流三个参数缺一个，模型就没法学。有一次客户给了两年的数据，我一看，振动数据缺了四个月——那四个月刚好发生过故障。等于最关键的样本丢了。

2. 时间跨度够不够？
有些项目需要看季节性变化（比如夏天温度高影响设备），只给一个月的数据肯定不行。我一般要求至少覆盖一个完整的生产周期。

3. 异常样本多不多？
缺陷检测项目里，正常样本一大堆，缺陷样本只有几十张，这种情况我见过太多次了。模型训练出来，永远只会说“正常”，因为没见过坏的。

一个实用动作：拿到数据后，先跑个统计，看看每个字段的缺失率。缺失超过10%，先补数据再往下走。

真实案例：某铸造缺陷检测项目，客户说有数据。我一看，过去一年只有40张缺陷照片。我跟客户说：这个量不够，至少1000张。客户有点不乐意，但还是花了两个月重新采集标注。项目启动后一路顺利，现在那套系统已经跑了两年。

三、第二件事：验证数据准不准

数据齐了，还得看它真不真实。工业现场的数据经常有“水分”。

我遇到过几种情况：

传感器漂移：用久了读数偏了10%，但没人发现
人工录入错误：工人填错了，把良品填成不良品
标准不统一：甲班觉得这个缺陷算“轻微”，乙班算“严重”

我的验证方法：随机抽50条数据，跑去现场核对。看看记录的温度和实际温度差多少，看看标注的缺陷是不是真的那个缺陷。

一个真实案例：某化工项目，客户给了三年的温度数据。我去现场一看，那台传感器换了两次型号，不同型号的读数偏差很大。客户之前完全没意识到。后来我们把数据按时间分段处理，前后花了两周，但避免了项目踩大坑。

四、第三件事：看看数据能不能对上

工业企业的数据通常散落在不同系统里：MES、ERP、PLC、人工报表……这些数据能不能对得上，是个大问题。

典型场景：

MES里记录这个批次是良品，但质检系统里标记的是不良品
同一个物料，ERP里叫“PCB-A01”，到MES里变成“A01板”
时间戳对不上，MES用北京时间，PLC用设备本地时间

我的做法：在项目启动前，要求客户把关键数据的口径统一。缺陷编码、物料编码、时间格式，全部对齐。这件事听起来简单，但做起来往往要花一两周。不过非常值得——很多项目后期扯皮，根源就是数据对不上。

五、第四件事：确认数据能不能拿到

这是最容易被忽略的一步。数据就在那里，但你未必拿得到。

常见障碍：

数据存在老旧PLC里，需要找供应商解密，耗时一两个月
跨部门审批，IT说可以，生产说不行，来回踢皮球
采集数据需要停产配合，客户不愿意

我的原则：在签合同之前，先把数据获取路径摸清楚。谁审批？要多久？会不会影响生产？如果答案不明确，我会在合同里把责任写清楚——比如“甲方需在合同签订后两周内提供XXX数据”。这不是不信任客户，是吃过太多亏了。

六、一个实用的数据质量评分表

为了方便快速判断，我设计了一个简单的评分表。每个维度1-5分，打完就知道数据准备度。

完整性（关键字段缺失率）

5分：缺失<5%
4分：缺失5%-10%
3分：缺失10%-20%
2分：缺失20%-30%
1分：缺失>30%

准确性（误差范围）

5分：误差<3%
4分：误差3%-5%
3分：误差5%-10%
2分：有参考价值但误差大
1分：完全不可信

一致性（跨系统对齐）

5分：完全一致
4分：大部分一致，有小问题
3分：经常对不上
2分：口径混乱
1分：完全不一致

可获取性（拿数据的难度）

5分：实时在线采集
4分：1周内能拿到
3分：需要2-4周审批
2分：需要大改造
1分：基本拿不到

总分判断：

≥18分：数据质量好，可以直接推进
12-17分：中等质量，可以做POC，但需要预留数据治理预算
<12分：数据基础差，先做数据治理再谈AI

七、一个真实的自检案例

某3C电子厂做AI质检项目，我帮他们做了数据自检：

维度	得分	情况
完整性	4分	历史数据基本齐全，但缺了去年一个月的记录
准确性	3分	部分传感器漂移，误差约5%
一致性	3分	MES和质检系统的缺陷编码经常对不上
可获取性	4分	审批已通过，一周内能拿到数据
总分	14分	中等质量，可以做POC