WPS表格数据清洗完全指南,脏数据变干净数据的魔法

发布日期:2026-06-08   浏览次数:1

在大数据时代,数据被称为"新石油"。企业通过收集海量数据,挖掘其中有价值的信息,指导商业决策。然而,原始数据往往是"脏"的——它们可能包含重复记录、缺失值、格式不一致、异常值等问题。

如果用脏数据进行分析,结果必然是不可靠的。因此,数据清洗(Data Cleaning)成为数据分析过程中最基础、最关键的步骤。

有研究表明,数据科学家和分析师有60%-80%的时间都花在数据清洗和数据准备上,真正用于分析的时间只占20%-40%。

好消息是,WPS表格提供了丰富的数据清洗工具,无需编写复杂的代码,就能完成大部分数据清洗工作。

本文将带你全面了解WPS表格中的数据清洗技巧,让你能够高效地将脏数据转化为干净数据,为数据分析打好基础。

第一章:认识脏数据与数据清洗
1.1 什么是脏数据
脏数据(Dirty Data)是指不符合数据质量要求的、存在各种问题的数据。常见的脏数据类型包括:

重复数据:

同一条记录被多次录入
例如:客户表中,同一个客户出现了两次
缺失数据:

某些字段的值为空
例如:员工表中,某些员工的"电话号码"字段为空
格式不一致:

同一字段的数据格式不统一
例如:日期字段,有的写成"2024/6/8",有的写成"2024年6月8日",有的写成"06/08/2024"
异常值:

明显不符合常理的数据
例如:年龄字段出现了"150",显然是错误的
拼写错误:

文字字段存在错别字
例如:省份字段,"广东省"被误写为"广省"
不统一的数据表达:

同一含义使用了不同的表达
例如:性别字段,有的写"男/女",有的写"M/F",有的写"1/0"
1.2 数据清洗的目标
数据清洗的目标是获得"干净数据",干净数据通常具有以下特征:

完整性:没有缺失关键字段
一致性:同一字段的格式和表达统一
准确性:数据真实反映实际情况
唯一性:没有重复记录
有效性:数据在合理的范围内
1.3 数据清洗的基本流程
一个完整的数据清洗流程通常包括以下步骤:

数据审查:了解数据的基本情况,发现问题
处理缺失值:填补或删除缺失的数据
处理重复值:识别并删除重复记录
标准化格式:统一数据格式
处理异常值:识别并处理异常数据
验证数据:检查清洗后的数据是否符合要求
第二章:WPS表格中的数据审查
2.1 快速了解数据概况
在进行数据清洗之前,首先要对数据有一个整体的了解。

查看数据基本信息:

打开包含数据的WPS表格文件
观察数据的行数和列数
查看每一列的字段名和数据类型
注意是否有明显的空行、空列
使用"冻结窗格"功能:

如果数据量很大,向下滚动时会看不到表头。此时可以使用"冻结窗格"功能:

选中表头下方的单元格
点击"视图"→"冻结窗格"→"冻结首行"
现在向下滚动时,表头会始终显示
2.2 使用筛选功能识别问题
WPS表格的"筛选"功能可以帮助快速发现数据中的问题。

开启筛选:

选中包含表头的行
点击"数据"→"筛选"
每一列的表头右侧会出现一个下拉箭头
使用筛选识别问题:

识别空白单元格:

点击某列的下拉箭头
取消"全选"
勾选"(空白)"
点击"确定"
表格中只会显示该列为空的行
识别异常值:

对于数值列,点击下拉箭头
选择"数字筛选"→"大于"或"小于"
设置条件,找出异常大或异常小的值
识别不一致的表达:

点击下拉箭头
查看所有唯一的数值
如果发现同一含义的不同表达(如"男"和"M"),记录下来,后续统一
2.3 使用条件格式高亮问题数据
条件格式可以自动高亮符合特定条件的单元格,非常有助于发现数据问题。

高亮重复值:

选中需要检查的列
点击"开始"→"条件格式"→"突出显示单元格规则"→"重复值"
WPS会自动高亮所有重复的值
高亮异常值:

选中数值列
点击"条件格式"→"项目选取规则"→"高于平均值"
可以选择"高于平均值"、"低于平均值"等
异常高或异常低的值会被高亮
自定义条件格式:

选中需要检查的列
点击"条件格式"→"新建规则"
可以设置复杂的条件,如:
单元格值大于1000
文本长度小于5
包含特定文字
第三章:处理重复数据
3.1 识别重复数据
使用"条件格式"识别(简单方法):

如前所述,使用条件格式可以高亮重复值。但这种方法的局限性是:它只能高亮重复的值,而不能告诉你哪些行是完全重复的。

使用"数据透视表"识别:

选中数据区域
点击"插入"→"数据透视表"
将疑似重复的字段拖到"行"区域
将同一字段拖到"值"区域,设置为"计数"
计数大于1的,就是重复值
使用"删除重复项"功能识别:

WPS提供了一个非常方便的"删除重复项"功能,它不仅可以删除重复项,还可以先帮你识别重复项。

3.2 删除重复数据
使用"删除重复项"功能:

选中数据区域(包括表头)
点击"数据"→"删除重复项"
在弹出的对话框中:
勾选"数据包含标题"(如果第一行是标题)
勾选需要检查重复的列
如果勾选多列,则只有这些列的值都相同的行才会被视为重复
点击"确定"
WPS会提示找到了多少个重复值,并删除了多少个
可以选择"保留一个"(通常保留第一个)
注意事项:

在执行删除操作之前,建议先备份原始数据
如果数据量很大,删除重复项可能需要一些时间
删除重复项后,无法撤销,请谨慎操作
3.3 标记重复数据(而不是删除)
有时,我们不想直接删除重复数据,而是想标记它们,以便进一步审查。

方法:使用公式标记

在数据表格旁边插入一列,命名为"是否重复"
在第一个数据行的"是否重复"列中,输入公式:
=IF(COUNTIF(A:A,A2)>1,"重复","唯一")
(假设A列是你要检查重复的列,A2是第一条数据)
向下填充公式
所有重复的记录都会被标记为"重复"
第四章:处理缺失数据
4.1 识别缺失数据
如前所述,可以使用"筛选"功能快速找出空白单元格。

使用"定位"功能:

选中数据区域
按快捷键 Ctrl+G(或点击"开始"→"查找和选择"→"定位")
点击"定位条件"
选择"空值"
点击"确定"
所有空白单元格都会被选中
4.2 处理缺失数据的方法
处理缺失数据,通常有以下几种方法:

方法一:删除包含缺失值的行

适用场景:缺失值占比很小,且行数很多
优点:简单直接
缺点:可能损失有价值的信息
方法二:填补缺失值

适用场景:缺失值可以用合理的方式填补
填补方法:
用平均值填补(数值型数据)
用众数填补(分类型数据)
用前一个值或后一个值填补(时间序列数据)
用固定值填补(如"未知")
方法三:保留缺失值

适用场景:缺失值本身有意义,或无法确定合理的填补值
4.3 填补缺失值的实操
用固定值填补:

使用"定位"功能选中所有空白单元格
直接输入填补值(如"未知")
按 Ctrl+Enter(批量填充所有选中的单元格)
用公式填补:

假设某列有缺失值,你希望用该列的平均值来填补:

在空白单元格中,计算平均值:
=AVERAGE(B:B)
(假设B列是有缺失值的列)
选中该列的所有空白单元格
输入公式:
=AVERAGE(B:B)
按 Ctrl+Enter 填充
选中该列,复制,然后"粘贴为数值"(将公式转为固定值)
用前一个值填补(适用于有序数据):

选中包含缺失值的列
按快捷键 Ctrl+G → "定位条件" → "空值"
在公式栏中输入:
=B1
(假设当前选中的是B2单元格,B1是上一个单元格)
按 Ctrl+Enter
将公式结果"粘贴为数值"
第五章:标准化数据格式
5.1 统一日期格式
日期格式不一致是数据清洗中常见的问题。

使用"分列"功能转换日期格式:

选中日期列
点击"数据"→"分列"
在"分列向导"中:
第一步:选择"分隔符号",点击"下一步"
第二步:取消所有分隔符,点击"下一步"
第三步:在"列数据格式"中选择"日期",并选择目标格式(如"YMD")
点击"完成"
WPS会尝试将该列的所有日期转换为统一的格式
使用公式转换日期格式:

如果"分列"功能无法正确识别某些日期,可以使用公式:

=TEXT(A2,"yyyy-mm-dd")
这个公式会将A2单元格的日期转换为"yyyy-mm-dd"格式的文本。

如果希望结果是日期类型(而不是文本),可以使用:

=DATEVALUE(A2)
但需要注意,DATEVALUE函数要求A2的日期格式是WPS能够识别的。

5.2 统一大小写和全角/半角
统一英文大小写:

转换为大写:
=UPPER(A2)
转换为小写:
=LOWER(A2)
首字母大写(其余小写):
=PROPER(A2)
全角转半角:

WPS没有内置的全角转半角函数,但可以通过以下方法实现:

使用"查找和替换"功能
在"查找内容"中输入全角字符
在"替换为"中输入对应的半角字符
点击"全部替换"
或者,可以使用ASC函数将全角字符转换为半角:

=ASC(A2)
5.3 去除多余空格
去除字符串首尾的空格:

=TRIM(A2)
去除字符串中的所有空格:

=SUBSTITUTE(A2," ","")
5.4 统一数据表达
使用"查找和替换"统一表达:

例如,将所有的"M"替换为"男",将所有的"F"替换为"女":

选中需要统一的列
按快捷键 Ctrl+H
在"查找内容"中输入"M"
在"替换为"中输入"男"
点击"全部替换"
重复上述步骤,将"F"替换为"女"
使用公式统一表达:

如果统一规则比较复杂,可以使用IF函数或VLOOKUP函数。

例如,将性别字段统一为"男"和"女":

=IF(OR(A2="M",A2="1",A2="男"),"男",IF(OR(A2="F",A2="0",A2="女"),"女","未知"))
第六章:处理异常值
6.1 识别异常值
使用统计方法识别:

标准差法:

如果某个值距离平均值超过2个标准差,则可能是异常值
四分位数法(箱线图法):

计算第一四分位数(Q1)和第三四分位数(Q3)
计算四分位距(IQR = Q3 - Q1)
小于 Q1 - 1.5×IQR 或大于 Q3 + 1.5×IQR 的值,可能是异常值
使用条件格式高亮异常值:

如前所述,可以使用条件格式高亮"高于平均值"或"低于平均值"的单元格。

使用图表识别:

选中数值列
插入"散点图"或"箱线图"
在图表中,远离主体的点可能是异常值
6.2 处理异常值的方法
方法一:删除

适用场景:确认是错误数据
方法二:替换为合理值

适用场景:异常值明显是录入错误,可以用正确值替换
例如:年龄=150,显然是错误,可以替换为合理值(如50)
方法三:保留但单独分析

适用场景:异常值可能是真实的,且具有分析价值
例如:销售数据中,某个客户的购买金额特别高,可能是VIP客户
方法四:视为缺失值

适用场景:无法确定异常值是否正确,且无法删除
6.3 实操:使用公式标记异常值
使用标准差法标记异常值:

计算平均值:
=AVERAGE(B:B)
计算标准差:
=STDEV.P(B:B)
在"是否异常"列中,输入公式:
=IF(ABS(B2-AVERAGE($B:$B))>2*STDEV.P($B:$B),"异常","正常")
使用四分位数法标记异常值:

计算Q1:
=QUARTILE.INC(B:B,1)
计算Q3:
=QUARTILE.INC(B:B,3)
计算IQR:
=QUARTILE.INC(B:B,3)-QUARTILE.INC(B:B,1)
在"是否异常"列中,输入公式:
=IF(OR(B2<QUARTILE.INC($B:$B,1)-1.5*(QUARTILE.INC($B:$B,3)-QUARTILE.INC($B:$B,1)),B2>QUARTILE.INC($B:$B,3)+1.5*(QUARTILE.INC($B:$B,3)-QUARTILE.INC($B:$B,1))),"异常","正常")
第七章:使用数据验证防止脏数据
数据清洗是事后补救,而数据验证是事前预防。在数据录入阶段就设置好数据验证规则,可以有效防止脏数据的产生。

7.1 设置数据验证规则
限制数据类型:

例如,某列只能输入整数:

选中需要限制的列
点击"数据"→"数据验证"
在"允许"中选择"整数"
设置最小值和最大值
点击"确定"
限制输入范围:

例如,年龄必须在0-120之间:

选中"年龄"列
点击"数据"→"数据验证"
在"允许"中选择"整数"
在"数据"中选择"介于"
设置最小值为0,最大值为120
点击"确定"
创建下拉列表:

例如,性别只能从"男"和"女"中选择:

选中"性别"列
点击"数据"→"数据验证"
在"允许"中选择"序列"
在"来源"中输入"男,女"
点击"确定"
现在,该列的每一个单元格都会显示一个下拉箭头,只能选择"男"或"女"
7.2 设置输入提示和错误警告
输入提示:

可以在用户选中单元格时,显示提示信息:

在"数据验证"对话框中
切换到"输入提示"选项卡
输入标题和提示信息
点击"确定"
错误警告:

当用户输入了不符合验证规则的数据时,可以显示错误警告:

在"数据验证"对话框中
切换到"错误警告"选项卡
选择样式(停止、警告、信息)
输入标题和错误信息
点击"确定"
第八章:实战案例
8.1 案例一:清洗客户信息表
原始数据问题:

客户姓名有重复
电话号码格式不一致(有的带区号,有的不带;有的是座机,有的是手机)
地址信息缺失
注册日期格式不一致
清洗步骤:

备份原始数据
删除重复的客户记录(使用"删除重复项"功能,基于"客户姓名"和"电话号码"判断重复)
标准化电话号码格式
使用公式提取数字部分
统一格式为"区号-电话号码"或"手机号"
处理缺失的地址信息
如果能通过其他途径获取,则填补
否则,标记为"地址未知"
统一注册日期格式
使用"分列"功能,将日期统一为"yyyy-mm-dd"格式
验证清洗结果
再次检查是否有重复
检查格式是否统一
抽样检查数据是否合理
8.2 案例二:清洗销售数据
原始数据问题:

销售金额有负值(可能是退货,但未标注)
销售日期有未来日期(明显错误)
产品名称表达不一致(如"iPhone 14"和"苹果14"指的是同一产品)
销售员姓名有拼写错误
清洗步骤:

处理负销售金额
添加"是否退货"列
如果销售金额为负,标记为"是"
将销售金额取绝对值
处理未来日期
使用筛选功能,找出销售日期大于今天的记录
如果确认是错误,修改为正确日期
如果无法确定,标记为"日期异常"
统一产品名称
创建产品名称对照表
使用VLOOKUP函数,将所有的产品名称统一为标准形式
纠正销售员姓名拼写错误
使用筛选功能,查看所有唯一的销售员姓名
找出拼写错误的姓名
使用"查找和替换"功能,统一修正
第九章:数据清洗的自动化
如果需要经常清洗类似格式的数据,可以考虑将清洗步骤自动化。

9.1 使用"宏"自动化数据清洗
WPS表格支持宏(需要WPS专业版或特定版本)。通过录制宏或编写宏代码,可以将一系列数据清洗操作自动化。

录制宏的基本步骤:

点击"视图"→"宏"→"录制宏"
执行一遍数据清洗操作
点击"视图"→"宏"→"停止录制"
下次需要清洗类似数据时,只需运行这个宏
9.2 使用"高级筛选"和"公式"创建清洗模板
可以创建一个"数据清洗模板",包含所有的清洗公式和步骤。每次有新数据需要清洗时,只需将新数据粘贴到模板中,清洗结果会自动生成。

第十章:常见问题与解决方案
Q1:数据量太大,WPS表格运行缓慢怎么办? A:可以尝试以下方法:

仅保留需要的列,删除不必要的列
将公式结果"粘贴为数值",减少计算量
分批处理数据
考虑使用WPS的专业版或升级硬件
Q2:如何判断清洗后的数据是否"干净"? A:可以通过以下方式验证:

再次检查是否有重复值
检查格式是否统一
检查是否有明显的异常值
进行简单的数据分析(如计算平均值、计数等),看结果是否合理
Q3:清洗数据时,如何避免破坏原始数据? A:建议:

在清洗前,备份原始数据
在新的工作表或工作簿中进行清洗
保留清洗日志,记录每一步操作
Q4:WPS表格能处理多大容量的数据? A:WPS表格的单表行数上限为1048576行,列数上限为16384列。如果数据量超过这个限制,建议使用数据库或其他专业工具。

结语:数据清洗是一项必备技能
数据清洗可能不如数据分析那样光鲜亮丽,但它是数据分析的基础。没有干净的数据,再高级的分析方法也无法得出可靠的结论。

WPS表格提供了丰富的数据清洗工具,从简单的"查找和替换",到强大的"数据透视表"和"条件格式",再到可以自动化的"宏",足以应对大部分数据清洗任务。

掌握数据清洗技能,不仅可以提升你的数据分析能力,还可以提高你的工作效率,让你在职场中更具竞争力。

让WPS成为你的数据清洗魔法棒,将脏数据变为干净数据,释放数据的真正价值!

本文相关标签

没有相关标签