Web化学化工资源的挖掘及化学信息学

李晓霞, 郭力, 袁小龙, 夏诏杰, 聂峰光, Internet推动的化学信息学重要进展, 化学进展, 2008, 20(12):1849-1859 (应邀撰写、封面文章)

引用格式: 李晓霞, 郭力, 袁小龙, 夏诏杰, 聂峰光, Internet推动的化学信息学重要进展, 化学进展, 2008, 20(12):1849-1859
标题:Internet推动的化学信息学重要进展
作者: 李晓霞, 郭力, 袁小龙, 夏诏杰, 聂峰光;中国科学院过程工程研究所多相复杂系统国家重点实验室:高性能计算与化学信息学课题组
关键词: 评述、化学信息学、Internet、化学浅层网、化学深层网、化学搜索引擎、数据提取、开源软件open source software、open access、repository、网格、化学数据库、化学软件、虚拟研究环境、eChemistry
摘要:Internet的普及为专业人员获取数据信息、利用计算工具提供了统一的平台,由此为化学信息学的发展带来了新的空间,推动了化学信息学以网络为基础,以化学相关的数据、信息及计算资源共享为目标的快速发展。本文将从不同侧面回顾近10年来的重要进展, 包括:(1) 网络化学信息检索:索引对象从化学浅层网向化学深层网发展;检索工具从Web化学信息资源导航向化学专业搜索引擎(包括文本信息和化合物标识信息)、及化学深层网检索引擎 (化合物物性数据提取)发展;索引粒度从Web站点向页面、乃至页面中的特定内容发展,一般页面特定内容的数据提取(即非结构化数据提取)是未来发展的方向。(2)可共享的化学数据库:从可免费访问和使用的化学数据库向数据库内容通过集成多来源数据(包括数据库拥有者主动收集、多来源数据主动提交达到共享的方式repository)实现数据库内容免费下载和共享、以及不同数据库之间的相关内容实现无缝连接的方向发展,如NIH建成的药物小分子共享数据库PubChem。(3) 开源(open source)化学软件工具包:从化学结构基本处理模块如CDK、JOELib向集成开发环境如化学信息学与生物信息学集成环境Bioclipse发展。(4) 与化合物及其数据共享相关的推荐标准:包括用于共享数据交换的化学标记语言CML、IUPAC推荐的学术论文相关热力学实验数据提交标准ThermoML及化合物结构唯一描述码InChI。(5) 计算化学资源共享及基于网格的应用:从可执行程序的下载、向在线计算、基于网格的应用发展。(6) eChemistry和虚拟研究环境:网络也成为化学相关日常的科学活动中不可缺少的平台。构建以网络为平台、支持开展科研活动的数字化基础设施和服务的eChemstry探索开始出现,根据需要自主集成多来源数据和计算资源、形成不同层次的支持协同工作的虚拟研究环境是未来数据和计算资源的共享方式的发展方向。