scaffold reads contig
来自知乎,留以后来学习 基因家族是由具有类似功能的很多基因组成的,这些基因往往具有类似的一个或几个相同的保守结构域。这些基因不一定全部来自于同一个物种,而来自于很多物种。 基因簇是由功能相关的一些基因聚集在一起构成的。举个例子,微生物的很多次级代谢产物往往是由一个基因簇来编码的,基因簇上的每个基因功能不同,有的负责编码氨基酸,有的负责修饰脱水等等,这些基因相互合作最终合成了一个完整的产物。 scaffold貌似是基因片段,比如NCBI上的shotgun序列,即鸟枪法测序会把基因组打成很多片段,每一个片段貌似就是scaffold。 motif是基序的意思,一般就是很短的一段序列,某些特征基序可能跟功能有关。 希望我没有说错能帮到题主。欢迎各位大大温柔地指出错误~ 三土哥哥3 年前 每一个片段是reads,scaffold是组装出来的 (1)基因家族。对于基因家族,按照传统的概念,认为是在染色体上距离接近,功能类似的基因簇(cluster)。但实际上,我们生物信息学对于基因家族的概念一般有两种分类:(1)按功能划分。例如我们常用的CAZyme注释或者Pfam注释,会把一些功能类似的基因聚类,形成一个家族。例如GH家族(糖苷水解酶家族)等;(2)按照序列相似程度划分。我们一般将旁系同源的基因放在一起认为是一个家族,一般使用orthoMCL进行聚类。 (2)基因簇的概念已经说了,是指在基因组上距离相近功能类似的基因。 (3)scaffold和contig。对于二代基因组测序的结果,我们获得最原始的数据叫做reads。它包含了原始的测试数据(ATCG)和碱基质量信息(一般用ASCII码对其打分)。由于二代测序的原理,我们需要把DNA打断后进行PCR扩增后对其进行测序。而打断后的序列片段很短,所以需要对其进行组装,还原其基因组的真实情况。在这个组装的过程中(其中的算法非常复杂),我们将reads拼接形成初步较长的序列,这个序列叫做contig。但是contig依旧还是很短,我们根据序列的信息将contig进一步的组装,形成更长的序列,这个序列就叫做scaffold。

In NGS data based genome assembly, there are several steps. First, using methods like debrujin graph to connect kmer(reads) into contig(only use information of overlap between reads). Then people use pair-end relationship to connect these contigs to form scaffold.