Web化学化工资源的挖掘及化学信息学

梁春燕, 郭力, 夏诏杰, 杨章远, 网络搜索引擎的性能优化策略和相关技术, 计算机工程与应用, 2004, 40(36):179-182

引用格式: 梁春燕, 郭力, 夏诏杰, 杨章远, 网络搜索引擎的性能优化策略和相关技术, 计算机工程与应用, 2004, 40(36):179-182
标题:网络搜索引擎的性能优化策略和相关技术
作者: 梁春燕, 郭力, 夏诏杰, 杨章远;中国科学院过程工程研究所多相复杂系统国家重点实验室:高性能计算与化学信息学课题组
关键词: MSDS; 搜索引擎; 网络爬行; 深层网检索; 数据提取
摘要:国际上称之为材料安全数据表的MSDS是一份关于化合物安全信息的综合性法律文件。随着人们安全意识的提高以及对职业健康、环境保护等认识的不断深入,MSDS作为一个安全信息文件越来越受重视。由于制作MSDS需要一定的成本,充分利用网络上免费的MSDS数据对于了解化合物的安全信息具有重要的参考价值。已有针对MSDS的搜索工具,一般只能检索单一来源的MSDS数据库,所以建立一个能通过一个查询同时检索多个来源数据库的MSDS搜索引擎,将为使用MSDS的人员提供极大方便。本文提出建立MSDS统一搜索引擎的框架,通过链接分析技术和深层网数据检索技术获取MSDS文件,然后缓存各数据源检索结果,并建立化合物索引以提高MSDS搜索引擎的响应速度。其实现过程包括发现与自动构造检索式模式、自动获取检索结果页面、利用数据提取的方法获取化合物标识信息以建立MSDS的化合物索引等多个方面,为建立一个可用的MSDS统一搜索引擎奠定坚实基础。