Web化学化工资源的挖掘及化学信息学

井银玲, 李晓霞, 袁小龙, 郭力, 大规模化合物子结构检索的并行实现与优化, 计算机与应用化学, 2010, 27(06):728-734

引用格式: 井银玲, 李晓霞, 袁小龙, 郭力, 大规模化合物子结构检索的并行实现与优化, 计算机与应用化学, 2010, 27(06):728-734
标题:大规模化合物子结构检索的并行实现与优化
作者: 井银玲, 李晓霞, 袁小龙, 郭力;中国科学院过程工程研究所多相复杂系统国家重点实验室:高性能计算与化学信息学课题组
关键词: 化学子结构检索; 大规模化学结构检索; 集群并行; 化学数据库; 化学信息学
摘要:化合物的子结构检索在计算机辅助药物设计、波普学、化学数据库等领域是不可或缺的工具。然而由于子结构检索是一个NP完备性的问题,获得用户可接受的平均检索时间一直是研究人员十分关注的问题,其方法主要有改进算法和提升硬件条件2个方面。当化学结构数据库的规模达到百万乃至千万级别时,尽管改进算法的方式能够获得一定的检索效率提升,但其提升的空间有限,因而,集群并行方式是大规模化合物子结构检索应用的必然选择。本文以ChemDB Portal的化学子结构检索系统为基础,实现了基于集群并行的化学子结构检索系统,并进行了任务均分、多线程并行等优化。在包含800 万个化合物结构的化学结构数据库中,利用5个节点的小型集群,选取10个较为典型的提问结构进行子结构检索测试。测试结果为基于集群的化学子结构检索的平均检索时间由初始单节点时的34.1 min降低为2.75 min,检索效率平均提高12.4倍,表明在大规模乃至超大规模的数据条件下,集群并行化方式能够显著地提高子结构检索系统的执行效率。