产品展示 Categories
联系我们 contact us
- 联系人:
- 陆先生
- 手机:
- 15895595058
- 电话:
- 0512-58628685
- 地址:
- 张家港市南丰镇
基因组序列拼接算法-数控滚圆机滚弧机倒角机张
添加时间:2019-06-21
针对新一代测序技术数据读取片段reads长度短、准确度低、数据海量等特点,本文提出了基于reads引导的基因组序列拼接算法(SRGA),以整条reads为拼接单位,并首次提出了基于数据特征和拼接信息累计的评分机制。选取常用测试集,将本文中的算法与序列拼接领域中的经典算法进行对比和分析,取得了较好的效果。去除初始数据中的错误碱基。(1)新一代测序数据的准确率较低,错误碱基主要分布在reads3’端,并且越靠近3’端错误率越高,reads3’端错误率更高,接近20%,而在5’端则非常准确[5],如图1所示。为降低错误碱基对拼接的影响,拼接前需过滤掉出错率较高的碱基数据。基因组序列拼接算法-数控滚圆机滚弧机倒角机张家港电动液压滚圆机滚弧机折弯机处理方法为:以靠近3’端二分之一reads长度的碱基序列为基准,计算该区域碱基序列的质量平均值,若该值小于15,则过滤掉该条reads。该平均值对应碱基的错误率,计算公式为:Q=-10×lg(ε)(1)其中,Q为碱基质量值,ε为碱基出错率。图1Solexa数据错误分布F测序过程中往往会产生许多人工数据[6],这些reads数据会有许多标识为A的碱基序列,需要去除。处理方法为:若某条reads中A含量>=0.9,则该reads被过滤掉。(3)测序过程中有时会产生一些没有被测出来的通常表示为“N”或“.”未知碱基[7],需要去除。处理序列拼接过程中,一般会优先选择拼接即将完成的reads,但考虑到reads的数据区域特征,正向reads越靠近末端 本文由公司网站滚圆机网站 转摘采集转载中国知网整理! http://www.d apengkuoguan ji.com/ ,其碱基的错误率越高。为提高序列拼接的拼接质量,将kmer拼接次数和碱基的错误率结合起来,以评分的方法进行量化,为kmer的导航选择提供依据。kmer评分机制的数学模型如图3所示,图中阴影部分的面积即为kmer的得分。该得分综合了reads的累计拼接信息和kmer所在reads区域的碱基质量,reads拼接次数越多,碱基序列所在的区域分值越高,对kmer的得分贡献越大。图3kmer得分的数学模型Fis的拼接基于reads引导的contigs拼接过程如下:step1:选择DeBruijn图中出现次数为所有kmer出现次数平均值的kmer作基因组序列拼接算法-数控滚圆机滚弧机倒角机张家港电动液压滚圆机滚弧机折弯机为初始kmer,并将该kmer作为初始的contigs,开始第一轮拼接;step2:取得contigs扩展待选的所有kmer,根据reads拼接信息及kmer所对应的区域得分,对这些kmer进行评分,选择分值最高的kmer进行拼接;step3:如果待选kmer为空,且拼接状态处于第二轮拼接,则停止拼接,转向step6;如果仍处于第一轮拼接,则拼接状态标记为第二轮拼接,取contigs的反向互补,在其3’端选择kmer,进行第二轮拼接;Step4:更新reads拼接信息,删除拼接失败或成功的reads信息;Step5:删除DeBruijn图中所有拼接成功reads中的kmer信息,并读取reads的碱基序列,添加到contigs;Step6:拼接结束,保存contig及拼接成功的reads。contigs分两轮进行,采用双向扩展。第一轮拼接从con-tig3’端开始,直至扩展终止;第二轮取contig的反向互补,其3’端重新进行扩展,直至扩展终止。contigs拼接过程如图4所示。·24·智能计算机与应用第5卷基因组序列拼接算法-数控滚圆机滚弧机倒角机张家港电动液压滚圆机滚弧机折弯机 本文由公司网站滚圆机网站 转摘采集转载中国知网整理! http://www.d apengkuoguan ji.com/