Hap-Eval:Sentieon团队开发的开源结构变异SV准确率评估工具

简介: Hap-eval基于单倍型 (haplotype) 对两组SV结果进行比较,首先会将比较区块内的SV拼接成单倍型序列,如果SV的结果中有定相信息,在这一步也可以被利用;然后这些单倍型序列被用来建立一个矩阵,进行结果判断。

Sentieon开发的Hap-eval准确率评估工具在设计之初就考虑到了复杂以及重复的基因组区域,采用了基于单倍型拼接序列的矩阵比较模式,兼容包括PacBio和ONT在内的主流三代长读长测序数据。另外值得一提的是,Hap-eval基于python所写,运行效率非常高,速度快,非常适用于大规模分析场景。


开源地址

https://github.com/Sentieon/hap-eval

工具介绍

Sentieon的研发团队开发了SV评估软件 Hap-eval。Hap-eval基于单倍型 (haplotype) 对两组SV结果进行比较,首先会将比较区块内的SV拼接成单倍型序列,如果SV的结果中有定相信息,在这一步也可以被利用;然后这些单倍型序列被用来建立一个矩阵,进行结果判断。

image.png

安装方法

git clone --recurse-submodules https://github.com/Sentieon/hap-eval.git
pip install ./hap-eval

使用方法

```

usage: hap_eval [-h] -r FASTA -b VCF -c VCF [-i BED] [-t INT] [--base_out VCF]
                [--comp_out VCF] [--maxdist INT] [--minsize INT]
                [--maxdiff FLOAT] [--metric STR]
optional arguments:
-h, --help            show this help message and exit-r FASTA, --reference FASTA
                        Reference file
-b VCF, --base VCF    Baseline vcf file
-c VCF, --comp VCF    Comparison vcf file
-i BED, --interval BED
                        Evaluation region file
-t INT, --thread_count INT
                        Number of threads
--base_out VCF        Annotated baseline vcf file
--comp_out VCF        Annotated comparison vcf file
--maxdist INT         Maximum distance to cluster variants (default: 1000)
--minsize INT         Minimum size of variants to consider (default: 50)
--maxdiff FLOAT       Haplotype difference theshold (default: 0.2)
--metric STR          Distance metric (default: Levenshtein)


使用反馈

Hap-Eval 是一款新发布软件,功能在持续完善开发中。如果 遇到不能Hap-Eval不能适配的 VCF文件,可通过github或sentieon@insvast.com及时反馈。

相关文章
|
16天前
|
人工智能
自动化、可复现,基于大语言模型群体智能的多维评估基准Decentralized Arena来了
Decentralized Arena(De-Arena)是一个用于评估大语言模型(LLM)的多维度、去中心化基准平台。它通过分布式评估机制提高公正性和透明度,采用多维度指标全面衡量模型性能,实现自动化和可复现的评估流程,促进LLM技术的健康发展与合作交流。
22 7
|
4月前
|
UED
评估数据集CGoDial问题之主流生成伪OOD样本的问题如何解决
评估数据集CGoDial问题之主流生成伪OOD样本的问题如何解决
|
6月前
|
存储 人工智能 缓存
大模型压缩量化方案怎么选?无问芯穹Qllm-Eval量化方案全面评估:多模型、多参数、多维度
【6月更文挑战第26天】无问芯穹Qllm-Eval评估了11个大模型(如OPT、LLaMA2)在多种参数配置和任务下的量化效果,探索权重量化、激活量化等方法对性能、速度和内存的影响。研究发现,W4、W4A8量化通常保持在2%的性能损失范围内,但最佳策略取决于模型大小、任务类型及硬件,提示了选择压缩方案时需灵活适应。[[arxiv.org/pdf/2402.18158.pdf](https://arxiv.org/pdf/2402.18158.pdf)]
92 6
|
5月前
|
机器学习/深度学习 数据采集 算法
Python基于Lasso特征选择、GM算法和SVR回归算法进行财政收入影响因素分析及预测
Python基于Lasso特征选择、GM算法和SVR回归算法进行财政收入影响因素分析及预测
118 0
|
机器学习/深度学习 人工智能 数据可视化
【网安AIGC专题10.19】论文4:大模型(CODEX 、CodeGen 、INCODER )+自动生成代码评估:改进自动化测试方法、创建测试输入生成器、探索新的评估数据集扩充方法
【网安AIGC专题10.19】论文4:大模型(CODEX 、CodeGen 、INCODER )+自动生成代码评估:改进自动化测试方法、创建测试输入生成器、探索新的评估数据集扩充方法
473 1
|
7月前
|
机器学习/深度学习 算法 搜索推荐
Python用机器学习算法进行因果推断与增量、增益模型Uplift Modeling智能营销模型
Python用机器学习算法进行因果推断与增量、增益模型Uplift Modeling智能营销模型
168 12
|
7月前
|
数据可视化 数据挖掘
singleCellNet(代码开源)|单细胞层面对细胞分类进行评估,褒贬不一,有胜于无
`singleCellNet`是一款用于单细胞数据分析的R包,主要功能是进行细胞分类评估。它支持多物种和多分组分析,并提供了一个名为`CellNet`的类似工具的示例数据集。用户可以通过安装R包并下载测试数据来运行demo。在demo中,首先加载查询和测试数据,然后训练分类器,接着进行评估,包括查看准确率和召回率的曲线图、分类热图和比例堆积图等。此外,`singleCellNet`还支持跨物种评估,将人类基因映射到小鼠直系同源物进行分析。整体而言,`singleCellNet`是一个用于单细胞分类评估的综合工具,适用于相关领域的研究。
94 6
|
7月前
|
运维 数据可视化 测试技术
Lag-Llama:第一个时间序列预测的开源基础模型介绍和性能测试
2023年10月,我们发表了一篇关于TimeGPT的文章,TimeGPT是时间序列预测的第一个基础模型之一,具有零样本推理、异常检测和共形预测能力。 虽然TimeGPT是一个专有模型,只能通过API访问。但是它还是引发了对时间序列基础模型的更多研究。到了2024年2月,已经有了一个用于时间序列预测的开源基础模型:laglllama。
378 2
|
7月前
|
数据可视化
R语言中使用非凸惩罚函数回归(SCAD、MCP)分析前列腺数据
R语言中使用非凸惩罚函数回归(SCAD、MCP)分析前列腺数据
|
7月前
|
安全 算法 测试技术
R语言基于copula的贝叶斯分层混合模型的诊断准确性研究
R语言基于copula的贝叶斯分层混合模型的诊断准确性研究