Web化学化工资源的挖掘及化学信息学

袁小龙, 刘增才, 李晓霞, ?? 基于XML的半结构化化学信息提取系统的重构与优化. 第九届全国计算(机)化学学?趸嵋? 2007/8/10

引用格式: 袁小龙, 刘增才, 李晓霞, 郭力. 基于XML的半结构化化学信息提取系统的重构与优化. 第九届全国计算(机)化学学术会议, 2007/8/10
标题:基于XML的半结构化化学信息提取系统的重构与优化
作者: 袁小龙, 刘增才, 李晓霞, 郭力;中国科学院过程工程研究所多相复杂系统国家重点实验室:高性能计算与化学信息学课题组
关键词: Web数据提取,Web化学数据库,多线程,系统优化,Deep Web
摘要:ChemDB Portal系统[1-3]是基于XML技术面向多个远程化学数据库的半结构化数据采集引擎。该系统通过单一检索入口同对多个远程化学数据库发送针对不同数据库构造的查询请求,并将返回的包含半结构化数据的页面分别转化为结构化的XHTML文档,通过一定的规则提取得到包含最终数据的XML文档,然后返回给用户统一显示。该系统可以通过一次检索获取多来源数据,提供了一种方便、快捷的多Web数据库数据检索途径。原先系统为JSP Model1(JSP+Bean)模式(Fig. 1)对各个数据库采用单线程串行检索模式逐一进行数据提取和处理,程序可读性较差、运行效率低,检索时间为各库检索时间之和。本文在原系统基础上将其重构为符合MVC架构(Model/View/Controller)的JSP Model2(JSP+Servelet+Bean)模式(Fig. 2),实现了显示层和控制层的分离,提高了程序的稳定性和可维护性。同时引入了多线程并行检索模式,实现多数据库同时并行检索,并采用线程池技术创建固定大小的线程池管理和重用并发线程,减少创建和销毁线程的开销,大幅降低了检索时间,检索效率提高到与检索单一数据库相当。此外,本文通过对过滤特殊字符的字符串处理过程用正则表达式技术进行优化,各站点处理时间减少了1-2s的时间延迟;通过对数据库检索的SQL查询语句进行优化,查询时间减少了1-2s。对8个目标站点进行检索的结果表明由于采用了多项优化技术改造使得处理总时间由原来的45-50s提高到10-15s。