Archive | 数据分析

Tags: ,

用perl统计一个六种类型的数据

Posted on 09 五月 2010 by 柳城 ,阅读 97 简洁版

 rebecca 童鞋还是第一次问我数据处理的问题阿。其实我对这种问题是比较感兴趣的。

数据是这样子的。 Continue Reading

Comments (17)

Tags: ,

用perl匹配字符串并返回该匹配的位置

Posted on 08 五月 2010 by 柳城 ,阅读 177 简洁版

这次讲讲perl里跟模式匹配或叫正则表达式有关的东西。

最近 ghxiao 童鞋常常问我用perl处理数据的问题。今天来分享一段代码吧。

比如说,给出一个序列文件,里面都是Fasta格式的序列。 然后序列里面有一些NNNNNN的连续字符。

问题就是要得出这些NNNN的一段字符在该序列的具体位置。(就是匹配某字符串) Continue Reading

Comments (11)

Tags:

用Perl抓取网页和提交表格

Posted on 25 二月 2010 by 柳城 ,阅读 267 简洁版

这里简单介绍一下用Perl来实现抓好取网页的源代码,以及用POST的方法来提交表格,并返回结果。难的讲不来,讲讲简单的。

这里讲到的Perl模块有:

use LWP::Simple;
use LWP::UserAgent;

perldoc查看详细的用法。 Continue Reading

Comments (16)

Tags: ,

Perl处理Fasta序列的又一实例

Posted on 13 一月 2010 by 柳城 ,阅读 375 简洁版

今天再来分享一小段Perl脚本,其实是比较简单的。主要是用来处理Fasta格式的序列

网友niche Says:

你好,你有没有分割fasta文件的perl脚本,我需要把一个fasta文件按两条序列一组分成若干个fasta文件,谢谢!

如果不懂fasta文件,可以再看一下解释Continue Reading

Comments (19)

Tags: , ,

两种方法查看文件的行数

Posted on 04 十二月 2009 by 柳城 ,阅读 387 简洁版

对于我们所操作的文件或是数据,行数是一个最常用的值。最后的统计结果当中,这个行数也是差不多作为一个必需项出现的,因为行数在大部分情况下,就是代表着总数。

我每天工作都是在接触两种系统:XP和Linux。所以介绍两种我常用的计算行数的方法,Excel的方法及linux命令的方法Continue Reading

Comments (17)

Tags: , , ,

Linux下大文件的排序和去重复

Posted on 20 十月 2009 by 柳城 ,阅读 508 简洁版

Linux下我们用 sortuniq 的命令来实现去重复行。

去重复行

简单的用法如下,如一个文件名:happybirthday.txt

cat happybirthday.txt (显示文件内容)

Happy Birthday to You!
Happy Birthday to You!
Happy Birthday Dear Tux!
Happy Birthday to You!

cat happybirthday.txt|sort (排序)

Happy Birthday Dear Tux!
Happy Birthday to You!
Happy Birthday to You!
Happy Birthday to You!

cat happybirthday.txt|sort|uniq (去重复行)

Happy Birthday Dear Tux!
Happy Birthday to You!

Continue Reading

Comments (13)

Tags: ,

两种办法批量去掉重复数据

Posted on 02 九月 2009 by 柳城 ,阅读 322 简洁版

这是对大批量数据而言的,数据少的话其实没多大意思。我喜欢大批量的数据。对于大批量的数据,最好用的工具其实还是Linux,如果是稍微少一些的话,直接用Excle就行了。

这里介绍两种办法,去掉重复的数据。说之前来复习一下我喜欢的一句话:柳城博客(Lc.), 努力在数据的海洋里畅游

1,用Excle,适合不算太大量的数据

如果是用Excle,太大的数据打开会有问题的。打开十几M的大小的Excle都够吃力的。如果电脑内存差些,那更加惨。不过,这种情况是适合大部分人的。 Continue Reading

Comments (4)

博百优 博百优 Advertise Here

最新评论

Lc.live