两种办法批量去掉重复数据
这是对大批量数据而言的,数据少的话其实没多大意思。我喜欢大批量的数据。对于大批量的数据,最好用的工具其实还是Linux,如果是稍微少一些的话,直接用Excle就行了。
这里介绍两种办法,去掉重复的数据。说之前来复习一下我喜欢的一句话:柳城博客(Lc.), 努力在数据的海洋里畅游。
1,用Excle,适合不算太大量的数据
如果是用Excle,太大的数据打开会有问题的。打开十几M的大小的Excle都够吃力的。如果电脑内存差些,那更加惨。不过,这种情况是适合大部分人的。
2,用Linux,sort与uniq命令
假设数据放在一个文件,取名file.txt。
cat file.txt | sort | uniq >newfile.txt
这样就是去掉重复数据,并输出到一个新的文件newfile.txt
简单吧。
有点相关的文章
- 【生物信息学教程】7.3:大规模基因表达谱数据分析方法 (0.500)
- Linux下大文件的排序和去重复 (0.454)
- 两种方法查看文件的行数 (0.454)
- Perl处理Fasta序列的又一实例 (0.454)
- 用Perl抓取网页和提交表格 (0.454)
- php写入、删除、复制文件例子 (RANDOM - 0.046)
我倒是很想知道怎样去掉WP中重复的。哈哈
WP中的重复?你是指修订版或草稿之类的?有插件的~ WP Cleaner: http://www.liucheng.name/?p=99
嘿。。。EXCEL那种学会了
SPSS用起来做统计比较方便
学习了,刚好找这个命令
感觉用hash去重复比较好,还能找到重复的数据。
我用插件
这个方法不错,一般都是使用其他软件。