Web化学化工资源的挖掘及化学信息学

李海波, 李晓霞, 袁小龙, 郭力, Internet上多来源MSDS的统一检索方法, 计算机与应用化学, 2009, 26(06):828-832

引用格式: 李海波, 李晓霞, 袁小龙, 郭力, Internet上多来源MSDS的统一检索方法, 计算机与应用化学, 2009, 26(06):828-832
标题:Internet上多来源MSDS的统一检索方法
作者: 李海波, 李晓霞, 袁小龙, 郭力;中国科学院过程工程研究所多相复杂系统国家重点实验室:高性能计算与化学信息学课题组
关键词: MSDS; 搜索引擎; 网络爬行; 深层网检索; 数据提取
摘要:国际上称之为材料安全数据表的MSDS是一份关于化合物安全信息的综合性法律文件。随着人们安全意识的提高以及对职业健康、环境保护等认识的不断深入,MSDS作为一个安全信息文件越来越受重视。由于制作MSDS需要一定的成本,充分利用网络上免费的MSDS数据对于了解化合物的安全信息具有重要的参考价值。已有针对MSDS的搜索工具,一般只能检索单一来源的MSDS数据库,所以建立一个能通过一个查询同时检索多个来源数据库的MSDS搜索引擎,将为使用MSDS的人员提供极大方便。本文提出建立MSDS统一搜索引擎的框架,通过链接分析技术和深层网数据检索技术获取MSDS文件,然后缓存各数据源检索结果,并建立化合物索引以提高MSDS搜索引擎的响应速度。其实现过程包括发现与自动构造检索式模式、自动获取检索结果页面、利用数据提取的方法获取化合物标识信息以建立MSDS的化合物索引等多个方面,为建立一个可用的MSDS统一搜索引擎奠定坚实基础。