卓流艺, 李晓霞, 袁小龙, 郭力. 基于XML的化学深层网数据提取模板生成工具. 第九届全国计算(机)化学学术会议, 2007/8/10
引用格式: 卓流艺, 李晓霞, 袁小龙, 郭力. 基于XML的化学深层网数据提取模板生成工具. 第九届全国计算(机)化学学术会议, 2007/8/1标题:基于XML的化学深层网数据提取模板生成工具
作者: 卓流艺, 李晓霞, 袁小龙, 郭力;中国科学院过程工程研究所多相复杂系统国家重点实验室:高性能计算与化学信息学课题组
关键词: Web数据提取、数据提取模板生成工具、化学深层网、XML、化学数据库
摘要:分布在Internet上的化学数据库是宝贵的化学信息资源,化学深层网是这类数据库的集合,化学深层网检索的目标是利用一个查询,实现多个化学数据库数据的同时检索和数据集成。基于XML的化学深层网数据提取方法是通过构造检索式,将一个查询请求自动提交到多个Web化学数据库的检索接口,并将各个库返回的HTML检索结果页面转换为XHTML,然后利用XPath书写的数据提取模板作用于XHTML,通过XSLT实现目标数据的提取。目标数据的XML结果文件可利用XML-DBMS进一步映射到数据库,并实现基于XML的多个化学数据库数据的检索结果显示[1,2]。基于XML的化学深层网数据提取的关键是如何创建数据提取模板XSLT。由人工创建数据提取模板不仅非常繁琐、也是一项有相当难度的工作。 本文通过总结化学深层网中HTML页面的特点[3],设计并创建了一个用于化学深层网数据提取模板的XSLT文档半自动生成工具。可由用户指定目标数据,工具根据目标数据的内容特性或属性特征以及位置信息,自动地生成提取目标数据的XPath表达式,可快速自动构建相应的XSLT数据转换模板,并测试其对目标数据提取是否正确。该数据提取模板生成工具已经应用到化学深层网检索引擎ChemDB Portal。