Drug Discovery Today | 频繁命中化合物机制探究:PAINS规则的局限性

简介: Drug Discovery Today | 频繁命中化合物机制探究:PAINS规则的局限性

频繁出现的假阳性结果对高效的药物研发是一个极大的挑战。为了能够提前筛选假阳性化合物,避免无效的成本和投入,2010年Baell等人提出一套PAINS筛选规则(Pan-assay interference compounds)用于假阳性化合物筛选。然而,在后续研究中发现,PAINS筛选规则对于假阳性化合物筛选的有效性和正确性有待考证。基于这个问题,本文收集了一个涵盖6种常见频繁命中化合物机制且包含600,000分子的大型基准数据集用于PAINS规则测评。


image.png

背景


高通量筛选是药物研发的一个重要手段,然而研究中发现一些化合物在不同类型靶点筛选中均表现出阳性结果,这类化合物称为“频繁命中化合物”。其中,通过干扰实验条件而在多个实验中呈现出阳性结果的假阳性化合物是应该在药物研发前期尽量避免的无效投入。2010年,Baell等人在基于六个不同靶点AlphaScreen高通量筛选实验结果,并将其中频繁出现(≥4次)的化合物和相关结构总结为包含480个子结构的筛选规则PAINS(Pan-assay interference compounds)用于假阳性化合物筛选。这篇文章在Google Scholarship的引用次数已经超过2090次,药学领域权威杂志《Journal of Medicinal Chemistry》要求作者在提交论文时必须附带研究分子通过PAINS筛选规则的结果,对于含有PAINS子结构的化合物需要提供实验数据证明该化合物不是频繁命中化合物。然而,在实际应用中,PAINS规则筛选的化合物类型实际多种多样且甚至相互矛盾的,包括无活性化合物、已上市药物及候选化合物等。由于机制的不明确,使得后续PAINS规则筛选化合物的处理复杂且不明朗。


数据库筛选


为了探究PAINS规则背后的机制和筛选能力,课题组从文献及数据库中收集到6种常见频繁命中化合物机制的大型基准数据集,包括胶体聚集化合物、自荧光化合物、荧光酶抑制剂、易反应化合物和多靶点化合物。经过一系列分子预处理,包含正集和负集,超过600,000个分子用于PAINS规则测评。

image.png

图1. PAINS规则测评结果


结果发现,PAINS规则只能大约检测出10%的频繁命中化合物,平均正确率在42%左右。后续对于PAINS子结构具体分析的环节发现,虽然部分PAINS子结构对于频繁命中化合物有鉴别能力,但是仍然有241个PAINS子结构在这次筛选中并未检测到,结合后续对从 ZINC数据库中收集的400,000,000可购买分子的PAINS筛选结果,仍然有超过13%的PAINS子结构在这两次筛选中都未出现。以上数据表明PAINS规则仍需改进。

image.png

图2. PAINS规则具体情况


与其他规则比较


为了进一步探究PAINS规则的筛选能力,课题组收集了一些其他常用的频繁命中化合物筛选规则用于基准数据集筛选。结果表明,相较PAINS规则,机制分明的规则的筛选结果普遍更高效且更准确。这个结果也说明探究原始数据机制对于规则筛选能力的重要性。

image.png

总结

频繁命中化合物的筛选对于药物正常高效研发具有重要作用,然而现今使用的PAINS子结构规则仍有较大的发展空间,后续相关筛选规则的发展需要注意:(1). 机制分明的原始数据集,包含正集和负集;(2). 对于子结构规则的合理编排;(3). 与筛选模型的结合,相互补充。

目录
相关文章
|
7月前
|
存储 人工智能 安全
使用‘消除’技术绕过LLM的安全机制,不用训练就可以创建自己的nsfw模型
本文探讨了一种名为“abliteration”的技术,该技术能够在不重新训练大型语言模型(LLM)的情况下移除其内置的安全审查机制。通常,LLM在接收到潜在有害输入时会拒绝执行,但这一安全特性牺牲了模型的灵活性。通过对模型残差流的分析,研究人员发现可以识别并消除导致拒绝行为的特定方向,从而允许模型响应所有类型的提示。
493 1
|
8月前
|
机器学习/深度学习 数据可视化
数据分享|R语言生存分析模型因果分析:非参数估计、IP加权风险模型、结构嵌套加速失效(AFT)模型分析流行病学随访研究数据
数据分享|R语言生存分析模型因果分析:非参数估计、IP加权风险模型、结构嵌套加速失效(AFT)模型分析流行病学随访研究数据
|
人工智能 API
Chain-Of-Note:解决噪声数据、不相关文档和域外场景来改进RAG的表现
CoN框架由三种不同的类型组成,研究称之为阅读笔记。
142 0
|
机器学习/深度学习 人工智能 算法
强化学习从基础到进阶-案例与实践[5]:梯度策略、添加基线(baseline)、优势函数、动作分配合适的分数(credit)
强化学习从基础到进阶-案例与实践[5]:梯度策略、添加基线(baseline)、优势函数、动作分配合适的分数(credit)
强化学习从基础到进阶-案例与实践[5]:梯度策略、添加基线(baseline)、优势函数、动作分配合适的分数(credit)
|
文件存储
Easy Number Challenge(埃式筛思想+优雅暴力)
Easy Number Challenge(埃式筛思想+优雅暴力)
89 0
|
机器学习/深度学习 人工智能 算法
强化学习从基础到进阶-常见问题和面试必知必答5::梯度策略、添加基线(baseline)、优势函数、动作分配合适的分数(credit)
强化学习从基础到进阶-常见问题和面试必知必答5::梯度策略、添加基线(baseline)、优势函数、动作分配合适的分数(credit)
|
数据挖掘
白话Elasticsearch53-深入聚合数据分析之Collect Model_bucket优化机制:深度优先、广度优先
白话Elasticsearch53-深入聚合数据分析之Collect Model_bucket优化机制:深度优先、广度优先
90 0
|
机器学习/深度学习 算法 BI
逆向倾向评分 (Inverse Propensity Scoring, IPS) 原理解析与MF算法的结合使用
逆向倾向评分 (Inverse Propensity Scoring, IPS) 原理解析与MF算法的结合使用
|
算法
白话Elasticsearch26-深度探秘搜索技术之function_score自定义相关度分数算法
白话Elasticsearch26-深度探秘搜索技术之function_score自定义相关度分数算法
126 0
|
自动驾驶 机器人 计算机视觉
3D检测难点 | 3D检测如何解决远处小目标问题?Deformable PV-RCNN 或是个答案!
3D检测难点 | 3D检测如何解决远处小目标问题?Deformable PV-RCNN 或是个答案!
200 0

热门文章

最新文章