批量序列拼接工具:CAP3/PCAP下载

CAP3 is for small-scale assembly of EST sequences with or without quality values.用于少量的序列拼接

PCAP is for large-scale assembly of genomic sequences with quality values and with or without forward-reverse read pairs.用于大批量的基因组序列拼接.

注: 下载前是要到这里填写资料才可以下载的:http://seq.cs.iastate.edu/

Download

CAP3

PCAP

1,在线的CAP3,少量的序列拼接

http://pbil.univ-lyon1.fr/cap3.php

这里提供一些EST序列,用于拼接的测试。完了后生成几个文件。有两个说一下,有一个是”.qual”文件, 另一下是”.con/.contigs”文件。

“.qual”:FASTA序列的测序质量评价(每个碱基,The file of quality values)。大至上是数值越大,质量越低。

“.con/.contigs”:拼接好的文件

2,下载本地使用。有用于Windons版的、Linux版的等

注,Windons版的CAP3下载后需要把cap3文件,重命名为cap3.exe

运行cmd,运行cap3.exe,就能看到该程序的详细用法。如下面所示。

Usage: /cygdrive/d/Software/bio/Cap3Win/cap3 File_of_reads [options]
File_of_reads is a file of DNA reads in FASTA format
If the file of reads is named 'xyz',
then the file of quality values must be named 'xyz.qual',
and the file of constraints named 'xyz.con'.
Options (default values):
  -a  N  specify band expansion size N > 10 (20)
  -b  N  specify base quality cutoff for differences N > 15 (20)
  -c  N  specify base quality cutoff for clipping N > 5 (12)
  -d  N  specify max qscore sum at differences N > 20 (200)
  -e  N  specify clearance between no. of diff N > 10 (30)
  -f  N  specify max gap length in any overlap N > 1 (20)
  -g  N  specify gap penalty factor N > 0 (6)
  -h  N  specify max overhang percent length N > 2 (20)
  -m  N  specify match score factor N > 0 (2)
  -n  N  specify mismatch score factor N < 0 (-5)
  -o  N  specify overlap length cutoff > 20 (40)
  -p  N  specify overlap percent identity cutoff N > 65 (80)
  -r  N  specify reverse orientation value N >= 0 (1)
  -s  N  specify overlap similarity score cutoff N > 400 (900)
  -t  N  specify max number of word matches N > 30 (300)
  -u  N  specify min number of constraints for correction N > 0 (3)
  -v  N  specify min number of constraints for linking N > 0 (2)
  -w  N  specify file name for clipping information (none)
  -x  N  specify prefix string for output file names (cap)
  -y  N  specify clipping range N > 5 (250)
  -z  N  specify min no. of good reads at clip pos N > 0 (3)
43 回复
  1. Joan says:

    Windows版和linux版的CAPS除了形式不同,使用效果上有没有不一样啊?

    另外,我下了Windows版的CAP3,也重命名为cap3.exe了,但没看见cmd的什么文件啊!运行cap3.exe也没出现你说的那些代码,奇怪呢?

    柳城博客 回复:

    运行CMD的意思是在 开始/运行/输入cmd
    然后把cap3.exe拉到刚刚用CMD打开的窗口,按enter运行.

  2. ysting says:

    问个问题,本人在window和lunux下使用cap3程序的结果不大一样,用的同一个EST序列文件,命令参数都是 -o 40 -p 80。

    windows下得到的contig文件有一个拼好的序列,以“TGGTCATA”结尾。
    linux下得到的contig文件也有一个拼好的序列,却以“TGN”,为什么会出现N这个字符。

    被拼接的EST文件确认都已经去掉空格。

    O型天蝎座 回复:

    这就不是太清楚了..没用过linux版的..两边的序列一般是不能采用的..有时需要去除两边的小部分碱基才是最终需要的.

  3. LAOJIAJQ says:

    XDJM,
    我怎么下载不下来啊
    我点“ .ZIP file for Windows ”结果有点奇怪
    迅雷自动连接下载下来的文件名是:cap3.aix.tar 大小是180KB
    而Windows的另存为下载下来的文件名是:cap3Win.zip 大小是77.6KB
    这两个按照楼主说的操作都不能用。这是为什么呀。
    有这个软件的兄弟姐妹们传个给我吧
    我的邮箱:jiajuqing@126.com

    Lc. 回复:

    那肯定是另存为,解压后要重命名。自己再仔细看文章

  4. LAOJIAJQ says:

    兄弟,我是真的下不下来。发个给我吧,现在要用到它呀。就是
    cap3 for windows的那个。

    Lc. 回复:

    注: 下载前是要到这里填写资料才可以下载的:http://seq.cs.iastate.edu/download.html
    这个之前忘记了

    Lc. 回复:

    给你发了个win版的cap3,请查收邮箱~

    王小龙 回复:

    我的邮箱284176067@qq.com 能发个win版的cap3给我吗?谢谢啊谢谢啊!

  5. carmack says:

    我也是就下了那个for win的ZIP文件,但是不会用啊,LZ能麻烦也发下win版的cap3到我邮箱吗——carmack.yuan@yahoo.com.cn,万分感谢

  6. lisa says:

    我也下载了本地使用的windows 版的CAP3,但是不会用啊,LZ能麻烦你给我也发一下win版的cap3到我邮箱里,好吗?非常感谢!
    我的邮箱是liyajiehappy@126.com :bq:

  7. 章双 says:

    你好,我现在在linux下用CAP3处理数据,处理的文件只有几M时能得出正常结果,但是我的数据有90M,程序运行着就终止了,是不是要用PCAP啊?可是我下了但又不会用,能不能告诉我是怎么回事啊,谢谢啦。

    yinchfa@163.com 回复:

    请问你知道CAP3最大能处理多大的文件么,我的>100M

  8. 章双 says:

    在Windows系统中用的CAP3也下下来了,但是按你这上面的方法操作不了,不明白怎么回事。

  9. Dejun Li says:

    你好!你提供的下载链接无法打开。麻烦楼主发一个win版的CAP3给我,谢谢!djli@genetics.ac.cn

  10. sam says:

    博主,我有两个疑问:
    1、我想知道拼接前的几条序列是怎么样的,拼接后变成怎么样了.
    所以。可不可以把拼接前后的序列发我一份啊?(我想要CAP3和PCAP分别拼接相同序列的比较)
    2、如果我要拼接的序列很多,就是直接下的fasta格式的某个生物的整个序列,那样拼接后成什么样?是变成一条序列呢,还是好多条序列?
    麻烦博主回我!!谢谢!!!

    柳城 回复:

    Hi,

    1, 你直接拿几条序列去拼一下.不就知道咯.. 我可没有序列给你的.

    2, 你知道拼接序列的原理吧.. 就是两条序列是要有重叠部分, 才能拼得起来..

    最后, 其实这软件拼接序列的效果并不是太好..

    sam 回复:

    还有个问题,就是怎么个重叠法呢?
    是首尾有重叠就行了?还是中间呢?
    比如ATTTCCTTGTA和
    GGTTCCTTATA怎么拼的呢?
    总之,这种重叠的情况很多,具体是怎样的情况,分大概的几种?
    能具体说说吗?

  11. Ethnobotany says:

    请问linux下的pcap怎么用啊?有没有什么教程啥的?麻烦提供帮助啊,着急用啊,我想去冗余序列。

    yinchfa@163.com 回复:

    请问你现在知道怎么用PCAP了吗?我刚接触这个…有什么资料能给我发一个不?yinchfa@163.com

  12. Buy Supplies on Sale says:

    Hi there, I found your web site by the use of Google even as searching for a comparable matter, your web site got here up, it seems to be good. I’ve bookmarked it in my google bookmarks.

评论已关闭。