化学化工资源的挖掘

  随着Internet的普及,网络在过去的10年间已经成为获取化学信息的主要途径,也改变了日常的研究、研究成果传播、学习新知识的方式。在享受信息时代前所未有方便的同时,由于Internet具有节点平等、自由发布的特点,网络资源不仅体现为分布式、高度动态和数量巨大,而且信息的质量良莠不齐,如何从海量信息中检索所需要的、高质量的化学信息,也是我们所面临的前所未有的挑战。

  目前人们获取网络信息的主要方法是通用资源搜索引擎如Google、百度。由于Google在资源覆盖面(据称超过80亿Web页面)有压倒性优势, Google也成为检索化学信息最常用的工具。但由于Google索引的资源无所不包,因此检索化学信息时常遇到的问题是检索结果集非常大、且包含许多与检索意图相关性小的内容。因此建立面向化学领域、专门的网络化学信息检索工具成为人们努力的方向。本课题组近10年里一直致力于Internet化学信息资源挖掘方法的系统研究,将信息学方法与领域知识相结合,正逐步建成对网络化学化工数据、信息发现和利用的一整套专门工具,包括:(1) Internet化学化工资源导航ChIN; (2) Internet化学化工资源搜索引擎ChemEngine; (3) Internet化学化工深层网挖掘工具ChemDB Portal。这三种工具之间的关系、区别和概貌可简要地总结为下表:

检索工具 资源导航 ChIN 搜索引擎ChemEngine 深层网挖掘ChemDB Portal
对象(网络化学资源) Web站点/页面 Web页面 分布式数据库中的数据
本质(信息学+领域知识) 链接分析 +信息源知识 +领域知识 链接分析 + 领域知识 数据深层结构分析+领域知识
方法特点 人工对资源进行发现、描述、组织 智能程序:控制爬行、自动分类 自动提交查询、数据提取、集成
主要技术 DBMS+Web交互 Web Robot + 文本自动分类 + 全文检索 Java+XML+网格+?
专门工具 ChIN-Manager (资源描述与自动发布) 爬行器、索引器、分类器、检索系统 查询构造、数据提取模版生成+数据映射+?
系统规模 > 10681Web站点/页面 > 1000万Web页面 9个化学数据库
应用/访问方式 Web浏览器(人浏览) Web浏览器(人浏览) Web浏览器(人浏览)应用程序
成熟度与影响力 整体性能超过同类系统;访问请求超过1亿次。 原型系统;初步测试好于同类系统。 尚未见同类系统。正在研发中。