Web化学化工资源的挖掘及化学信息学

袁小龙,李晓霞,井银铃,夏诏杰,聂峰光,郭力,化学深层网检索引擎ChemDB Portal的优化与改进. 第十届全国计算(机)化学学术会议, pp 161-162, 2009/10/22

引用格式: 袁小龙,李晓霞,井银铃,夏诏杰,聂峰光,郭力,化学深层网检索引擎ChemDB Portal的优化与改进. 第十届全国计算(机)化学学术会议, pp 161-162, 2009/10/22
标题:化学深层网检索引擎ChemDB Portal的优化与改进
作者: 袁小龙,李晓霞,井银铃,夏诏杰,聂峰光,郭力;中国科学院过程工程研究所多相复杂系统国家重点实验室:高性能计算与化学信息学课题组
关键词: ChemDB Portal;化学深层网;优化;大规模分子结构检索;并行
摘要:化学深层网检索引擎系统ChemDB Portal是一个利用深层网检索技术在线检索多来源数据库的化学检索引擎[1-5]。经过几年的开发已经具备了通过不同检索方式,包括名称、分子式、CAS号检索、结构检索等方式,实时在线检索多来源网络数据库的功能,实现了化合物数据信息的多途径集成检索和利用。 本文主要介绍随着数据规模的扩大和可扩展性的要求,对ChemDB Portal系统的总体框架进行的改进和优化,主要包括:功能扩展、后台数据管理、界面优化、数据库优化和结构检索优化。功能扩展是指实现了多来源的化合物安全信息(MSDS)的集成检索,并加入了企业展示和化学品产品目录检索以及新闻版块;后台数据管理实现了企业及产品数据的远程在线交互式提交和本地文件(例如Excel等)批量提交的两种数据录入方法,并可通过后台管理模块在线进行编辑和修改。界面优化主要指数据集成页面的设计和面向用户的页面导航设计优化,实现信息互联,交互性好;数据库优化主要包括SQL语句优化、数据库参数调优和数据读取方式优化;结构检索优化主要是针对包含800万化合物结构信息的数据库,采取并行技术对大规模分子结构检索进行优化,在最耗时的预处理和逐一匹配过程采用了粗粒度与细粒度相结合的并行检索方法提高检索速度,实现了在多节点、多线程间的动态任务划分与负载平衡。