闫志伟的网络日志 » 首页 » 关于 » 归档

有两个1.5G的csv文件需要处理,具体的要求是删去不必要的字段和某些字段中不符合要求的行,减小数据量,以便进一步的分析,但是Excel很难直接进行处理。

平时基本上不写代码,想到的笨方法是:

  1. 将大文件分割成小文件(大概8个);
  2. 用Excel对每个小文件(200M左右)进行排序,筛选,删除等操作;
  3. 将处理后的小文件合并成一个文件。

虽然看起来只有三步,但其中的困难只有在真正做的时候才能体会。 分割完成后在处理第二个200M的小文件时,电脑不争气的卡死了。

意识到以这种方法估计要搞到下班也很难处理好,上半年的最后一个小长假甚至会因此而受到影响,脑子里突然想到了 @dapeng 在steemit上面推荐,不少人在学习的R语言。

于是果断地在网上找了两篇教程,下载并安装了R的安装包和Rstudio,试着写下了人生中的第一个R脚本,虽然只有大概5行代码,略显简陋,但很好地完成了人拉肩扛的纯体力劳动,大大解放了生产力。将精力主要放在了后续的分析上。

唯一不太喜欢的地方在于,R在读取csv文件时,没有进度提示,不知道要多久才能完成,好在最终执行整个过程只花了20分钟左右。

同事:你这是什么?
我:R语言。
同事:R语言是什么?
我:统计分析语言。
同事:你还会这个啊?
我:刚刚学的一点皮毛。

真的只是一点皮毛,距离学会还有一定的路要走。不过我对于编程的理解是,关键不在于学没学会,而在于会不会用。

下午五点半,愉快地按时下班了,开始了上半年的最后一个小长假。

(完)