从抽象到具象的循环 - 数据的获得处理和展示 1-2
数据来源
打开Excel的数据标签,获取外部数据大概占了五分之一的空间,我们可以从Access,网站,Sql server, Odata, MS Query等等不同的来源获取数据,不过对于像我一样的一般用户来说,最多的数据来源渠道应该还是文本文件了。
不过其他的来源也不应该忽视啦,考虑之后开几个新的小章节介绍MS Query等等
导入文本
Excel默认的导入文本格式有三种Txt,Prn,Csv
Txt不用多说,地球人都知道,不知道的打开一个系统记事本,写两个字保存一下就是Txt文件。
Prn是打印用文件,一般不怎么用到,也就不浪费时间了。
Csv是Comma Separated Values的缩写,字面上的意思就是用逗号分隔的数据,我们打开一个CSV文件就可以看到了,里面都是用逗号来隔开数据的。
PS. 如果需要从什么系统中导出数据的话,有CSV格式的话最好用CSV,导出数据的原则是格式越少越好,文件越简单越好,这样才能方便被各种其他的工具使用,如果只是导出成Excel格式xlsx的话,老版本的Excel就开不了了。即使是导出成xls这样比较老的Excel格式里面也会有过多的不必要的格式信息,导入其他系统的时候不但用不到,还有可能导致错误。
不过很多文本文件的后缀名字千奇百怪,尤其是国产的一些管理系统什么的导出来的,往往就跟着一个谁也没见过的后缀名字,不过只要这个文件可以用记事本来打开,就可以用文本导入。
导入一个文本之后,Excel会问一下你这个文件是用分隔符号还是固定宽度来导入的
- 如果数据之间有符号(包括空格和Tab)分隔,那就用分隔符号,这个应该囊括了绝大部分的情况
- 固定宽度在一些特定的地方有很方便的用处
这里我们用的是一个Csv文件,我用记事本随便写的,大家可以用Excel和记事本分别打开看看里面是什么样子的。
12_导入_01
因为是Csv所以是逗号分隔,我们直接下一步之后选择逗号就可以在下面预览到效果了
还有一些简单的选项,包括是不是把连续的分隔符号视为单个,和是否使用文本识别符号
如果选了把连续的分隔符号视为单个的话连着来两个逗号的话就会忽略一个例如AA,,BB导入表中就变成了 AA BB,但是没有选这个的话,就会变成 AA 空格 BB
文本识别符号是用来识别一段数据是不是视作文本的,如果选无的话所有的信息都会被按默认格式填到格子里去,如果选了,文本识别符后面的文字就被视作文本填充
` 例如原始数据中有一个数据是 ‘12345, 3456’ 如果选择了’作为文本识别符号的话,12345,3456就会被认为是一个字段填进一个格子里面去。
这个是选择’作为文本识别符号的情况,因为999前面有个’而后面就没有’了,所以所有的999后面的都被认为是一个文本值
而888,777夹在两个”中间,所以选择”作为文本识别符号的话,就会把888,777填在一个格子里面
选择好自己需要的选项,点击下一步最后还要确认一下数据格式。
数据格式这里要注意一下,如果你的表里面有一下几种情况,最好设置一下:
- 如果有日期的,记得换成日期格式
- 如果有类似于身份证号码这样的长数字而且需要全部显示的,记得选中那一列再把数据格式换成文本,这样就可以正常显示而不会改成科学计数法了
格式也都OK了就点击完成,数据就被导入Excel了。
导入前的编辑
不过并不是所有的文本原始数据都是这么友好的,有的里面是先分块再出的数据,还有的分隔不清楚。这时候我们就要对数据进行一些处理,数据处理的时候要注意一下几点:
- 用好查找和替换,大部分格式上的调整是用替换完成的
- 用记事本无法把字符替换成回车,但是用Word打开就可以
- 千万注意符号的全角和半角,如果真的不放心的话,完成之后用全部替换把全角的逗号替换成半角的做一次
举个例子吧,不重复做了,这里是一个对数据预处理的例子,看下面的Excel处理部分就可以了
导出AD用户信息并处理

