2012年6月7日木曜日

高速シーケンスデータからBAMを得てバリアントをコールする

BWAによるアライメントの続き

samtools & bcftools
アライメントデータ(.sam)をバイナリデータ(.bam)に変換し、バリアント(SNP, indel)をコールする
bcftoolsはsamtoolsについてくる


必要なファイル
 ref.fasta
 fastq1.txt
 samse.result.sam
 sampe.result.sam


samtools view
 samtools view -uS <input.sam> | samtools sort - <name>
 → .bamファイルが作られる(name.bam:sort済みのuncompressedな.bam)

samtools rmdup
 samtools rmdup -s <imput.bam> <output.bam>
 → PCR duplicatesが取り除かれる

samtools index
 samtools index <input.bam>
 → .baiファイルが作られる

samtools flagstat
 samtools flagstat <input.bam> > <output.txt>
 → リードのマップ状況などに関する統計が表示される

samtools idxstats
 samtools idxstats <input.bam> > <output.txt>
 → 各染色体にマップされたリードの数が表示される

samtools pileup
 廃止された(現在はmpileupを使用する)

samtools mpileup(variantのコール)
 samtools mpileup -uf <ref.fasta> <input.bam> | bcftools view -bvcg - > <output.raw.bcf>
 → .bcfファイルが作られる(uncompressed BCF: binary call format)

bcftools view
 bcftools view <input.raw.bcf> | vcfutils.pl varFilter -D10000000 > <output.var.flt.vcf>
 → フィルター済みの.vcfファイルが作られる


0 件のコメント:

コメントを投稿