scaffold、contig等这些名词都是基因组组装过程中的概念。
reads:是二代测序中产生的短读长序列
contig:中文叫做重叠群,不同reads之间的overlap拼接成的序列就是contigs;
scaffold:是比contig还要长的序列,获得contig之后还需要构建paired-end或者mate-pair库,从而获得一定片段的两端序列,这些序列可以确定contig的顺序关系和位置关系,最后contig按照一定顺序和方向组成scaffold,其中形成scaffold过程中还需要填补contig之间的空缺。
2022-11-25T10:03:10.png
至于图中reads内overlap时有时无,是因为二代测序因为读长较短,不一定能够文库中的所有片段都能被一一读出,对于测PE150的情况来说,大于300bp的片段就没办法被读完,就没有overlap,而小于300bp的片段就是由overlap的。
Contig N50:
Reads拼接后会获得一些不同长度的Contigs.
将所有的Contig长度相加,能获得一个Contig总长度.
然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,contig 3...………Contig 25.
将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50.
举例:Contig 1+Contig 2+ Contig 3 +Contig 4=Contig总长度1/2时,Contig 4的长度即为Contig N50.ContigN50可以作为基因组拼接的结果好坏的一个判断标准.

Scaffold N50:
Scaffold N50与Contig N50的定义类似.Contigs拼接组装获得一些不同长度的Scaffolds.
将所有的Scaffold长度相加,能获得一个Scaffold总长度.
然后将所有的Scaffolds按照从长到短进行排序,如获得Scaffold 1,Scaffold 2,Scaffold 3...………Scaffold 25.
将Scaffold按照这个顺序依次相加,当相加的长度达到Scaffold总长度的一半时,最后一个加上的Scaffold长度即为Scaffold N50.
举例:Scaffold 1+Scaffold 2+ Scaffold3 +Scaffold 4 +Scaffold 5=Scaffold总长度1/2时,Scaffold 5的长度即为Scaffold N50.Scaffold N50可以作为基因组拼接的结果好坏的一个判断标准.

部分定义引用来自知乎额纪百度文库名词解释知乎星空Idealist