文本数据清洗是什么(文本清洗方法)
导语:文本清洗与计算常用的4个函数CONCATENATE、EXACT、LEN和TRIM函数
1 合并字符串,CONCATENATE函数最简单
在整理表格数据时,经常需要将多个单元格中的内容合并到一起,这时可以使用连接符“&”(注意,“&”可以连接单元格中的所有数据,不仅限于单元格文本)和CONCATENATE函数。无论目标单元格的数据是否是文本,两者都将其视作文本进行合并,合并后得到一个文本型数据。CONCATENATE函数用于将两个或多个文本字符串合并为一个字符串。其语法结构如图所示。
例如,如图所示的员工家庭住址表中分开列出了员工家庭住址所在的省、市、区/县和详细地址,如果要将家庭住址显示在“家庭地址”列单元格中,就需要使用“&”或CONCATENATE函数。
如果要把“张贵”的家庭地址合并到一起,则需要在F2单元格中输入公式“=B2&C2&D2&E2”,按【Enter】键即可将公式中引用的多个单元格中的字符串合并到F2单元格中。向下填充公式,可合并其他员工的家庭地址,效果如图所示。
使用CONCATENATE函数连接字符串同样很简单。如果要使用函数把“张贵”的家庭地址合并到一起,则只需要在F2单元格中输入公式“=CONCATENATE(B2,C2,D2,E2)”,按【Enter】键即可将函数中引用的多个单元格中的字符串合并到F2单元格中。向下填充公式,可合并其他员工的家庭地址,效果如图所示。
2 巧用EXACT函数,检查文本是否相同
在Excel中,当需要比较两个字符串是否相同时,一般都会使用比较运算符“=”进行比较。该运算符不仅可以对数值进行比较,还可以对文本进行比较,如果比较结果相同,则返回逻辑值TRUE;如果比较结果不相同,则返回逻辑值FALSE。如表所示列举了一些使用逻辑运算符“=”比较数据的公式。
由表可以得出,逻辑运算符“=”既可以对数值是否相等进行比较,也可以对文本是否相同进行比较,但不能对字母大小写是否相同进行比较区分。那么,在Excel中,如何对字母大小写进行比较区分呢?
例如,如果想将Excel中的“e”和“E”看成是两个不同的字母,则需要使用文本函数中的EXACT函数。EXACT函数用于检测两个字符串是否完全相同,如果完全相同,则返回逻辑值TRUE,否则返回逻辑值FALSE,其语法结构如图所示。
EXACT函数与比较运算符“=”虽然都可以用于比较两个字符串是否相同,但却有所区别,如图所示。
我们已经知道,“=”在进行比较时,不会区分英文字母的大小写,而EXACT函数在对字符串进行比较时,会严格区分英文字母的大小写。另外,“=”可以对不同类型的数据进行对比,而EXACT函数只能对文本值进行对比。当参数是数字时,EXACT函数会自动将数字转换成文本后再进行对比。如表所示列举了一些使用EXACT函数比较数据的公式。
3 用LEN函数计算字符串长度
在Excel中,字符串的计算分为两种方式,一种是按字符进行计算;另一种是按字节进行计算。
字符是对计算机中使用的字母、数字、汉字和其他标题符号的统称,一个汉字、字母、数字或标点符号就是一个字符。如数字“5364”是4个字符;“我爱Excel”是7个字符;符号“+”是1个字符。
字节是计算机中存储数据的单位,在Excel中,一个英文字母(不分大小写)、一个数字和一个英文状态下输入的标点符号各占一个字节的空间,一个中文汉字和一个中文状态下输入的标点符号各占两个字节的空间。
在Excel中,计算字符串长度时,一般是按字符进行计算,如果想要知道某个字符串由多少个字符组成,那么可使用文本函数中的LEN函数来统计。LEN函数只有一个参数“text”,该参数可以是单元格引用、名称、常量和公式等,空格将作为字符进行计数。如表所示为使用LEN函数统计字符数的部分例子。
4 利用TRIM函数灵活解决“空格”问题
空格在单元格中显示并不明显,所以很多人觉得空格对表格没有什么影响。其实,在统计、汇总表格数据时,多余的空格容易导致计算结果错误。例如,如图所示的各部门销售额统计表中,因为部门列数据前后有多余的空格,所以导致在统计各部门的总销售额时,统计的结果为0或结果错误。因此,最好将表格中多余的空格删除。
TRIM函数用于删除字符串前后和字符之间的空格,字符串前后的空格会全部删除,但字符之间的空格有多个时,不管字符是汉字还是英文,删除时都会保留一个空格,作为词与词之间分隔的空格。TRIM函数只有一个参数“text”,表示目标文本或单元格引用。
例如,要将如图所示表格中字符串前后多余的空格删除,使计算结果正确。因为是使用函数删除多余空格,所以不能在原“销售部门”列中执行计算,而应在其他空白列中进行计算,然后再将计算结果复制粘贴到原“销售部门”列中即可。具体操作步骤如下。
步骤01
在空白列中进行计算。在J2单元格中输入公式“=TRIM(B2)”,按【Enter】键,再向下填充公式,即可删除“销售部门”列字符串前后的所有空格,效果如图所示。
图4-9 删除多余空格
步骤02
粘贴数值。选择J2:J12单元格区域,按【Ctrl+C】组合键复制,选择B2:B12单元格区域,单击“粘贴”下拉按钮,在弹出的下拉列表中选择“值”选项,如图所示。
步骤03
查看正确的计算结果。即可将计算结果以数值形式粘贴,粘贴后,C14:H15单元格区域中将自动显示出正确的计算结果,如图所示。
本文内容由小欣整理编辑!