我正在创建一个python管道来处理非常大的二进制文件(即50+ GB)。它们是BAM文件,一种用于表示基因组的格式。我的脚本目前受到两个计算量很大的子进程调用的瓶颈。
这两个命令占用了每次运行管道的约80%的计算时间,因此我需要找到一种方法来加速这个过程。他们从同一个文件中读取数据。我想知道最好的路线,以提高效率。基本上,是否有一种特殊的并发风格才能发挥最佳作用?或者还有其他一些有趣的方法吗?
命令:
subprocess.call('samtools view -b -f 68 {}> {} _ unmapped_one.bam'.format(self.file_path,self.file_prefix),shell = True)
subprocess.call('samtools view -b -f 132 {}> {} _unmapped_two.bam'.format(self.file_path,self.file_prefix),shell = True)
对于您所描述的内容以及您共享的代码,我可以考虑几种提高性能的方法。
您正在程序的shell中生成子进程来处理文件,这种方法会根据运行程序的硬件而有所不同,如果这是一个多处理器环境,它可能是一个很好的方法。
考虑使用包含低级hstlib API 的pysam库
根据您开发的应用程序流程,您可以通过使用asyncio扩展并发活动来显着提高性能。Brad Salomon 最近的一篇文章简要介绍了多处理和多线程以及深度潜入asyncio的好处。
如果你最终使用ASYNCIO基于UNIX系统上,我还建议在寻找uvloop它包装libuv作为一个事件循环
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。