Linux

文章

用Excel查看行数

两种方法查看文件的行数

对于我们所操作的文件或是数据,行数是一个最常用的值。最后的统计结果当中,这个行数也是差不多作为一个必需项出现的,因为行数在大部分情况下,就是代表着总数。

我每天工作都是在接触两种系统:XP和Linux。所以介绍两种我常用的计算行数的方法,Excel的方法及linux命令的方法阅读更多

Linux下大文件的排序和去重复

Linux下我们用 sortuniq 的命令来实现去重复行。

去重复行

简单的用法如下,如一个文件名:happybirthday.txt

cat happybirthday.txt (显示文件内容)

Happy Birthday to You!
Happy Birthday to You!
Happy Birthday Dear Tux!
Happy Birthday to You!

cat happybirthday.txt|sort (排序)

Happy Birthday Dear Tux!
Happy Birthday to You!
Happy Birthday to You!
Happy Birthday to You!

cat happybirthday.txt|sort|uniq (去重复行)

Happy Birthday Dear Tux!
Happy Birthday to You!

阅读更多

BioPerl指南:Unix/Linux/Windows下的安装

BioPerl安装指南:Unix/Linux/Windows下的安装

其实BioPerl的功能很强大。但是用的人却不多。最根本的原因可能是,太多数人都还是新手,相对而言Perl很难懂,不懂Perl的人根本搞不懂BioPerl。而且BioPerl安装也很复杂。又不像Perl一样打包成一个安装包,一键安装。

到现在,我前前后后安装过BioPerl好几次,每次都觉得很复杂,很难懂。我又不是计算机专业出身的,真的是连最基本的计算机算法或原理都是不懂的。我学BioPerl的确感到吃力。所以,接触了BioPerl这么久,都只是用BioPerl从NCBI上拿序列。其它的功能还没真正接触。

接下来可能花些时间慢慢学习。首先先安装好Perl(http://www.perl.org/get.html阅读更多

Cygwin在Windows上提供一个完整的UNIX shell

Cygwin在Windows上提供一个完整的UNIX shell

windows和linux各有其优越性,可以安装在同一台电脑上,装双系统要重启转换麻烦,安装虚拟机也需要配置很多东西。

cygwin是一个在windows平台上运行的unix模拟环境,是cygnus solutions公司开发的自由软件(该公司开发了很多好东西,著名的还有eCos,不过现已被Redhat收购)。

它对于学习unix/linux操作环境,或者从unix到windows的应用程序移植,或者进行某些特殊的开发工作,尤其是使用gnu工具集在windows上进行嵌入式系统开发,非常有用。随着嵌入式系统开发在国内日渐流行,越来越多的开发者对cygwin产生了兴趣。 阅读更多

linux:awk中的NR,FNR

关键词: NR,FNR
FNR表示当前文件的记录数 NR表示到此为止的记录数

对于单个 文件NR 和FNR 的 输出结果一样的 : 阅读更多

linux:crontab命令用法

crond 是linux用来定期执行程序的命令。当安装完成操作系统之后,默认便会启动此任务调度命令。crond命令每分锺会定期检查是否有要执行的工作,如果有要执行的工作便会自动执行该工作。而linux任务调度的工作主要分为以下两类:

1、系统执行的工作:系统周期性所要执行的工作,如备份系统数据、清理缓存
2、个人执行的工作:某个用户定期要做的工作,例如每隔10分钟检查邮件服务器是否有新信,这些工作可由每个用户自行设置

阅读更多

如何用COBALT构建本地的多序列比对(Linux系统)

COBALT是一个蛋白的多序列比对工具,也用到RPS-BLAST, BLASTP, 和PHI-BLAST等工具,并且也用到了conserved domain database (CDD) 和PROSITE protein-motif database来保证COBALT比对结果的质量。关于在线COBALT的用法看另一篇文章”  COBALT:NCBI在线蛋白多序列比对(比ClustalW还强大的工具) ”。

这里再讲解如何构建本地的COBALT多序列比对,在Linux系统的配置步骤如下: 阅读更多

linux:md5sum命令

MD5算法常常被用来验证网络文件传输的完整性,防止文件被人篡改。MD5 全称是报文摘要算法(Message-Digest Algorithm 5),此算法对任意长度的信息逐位进行计算,产生一个二进制长度为128位(十六进制长度就是32位)的“指纹”(或称“报文摘要”),不同的文件产生相 同的报文摘要的可能性是非常非常之小的。 阅读更多