随着Internet的普及,网络在过去的10年间已经成为获取化学信息的主要途径,也改变了日常的研究、研究成果传播、学习新知识的方式。在享受信息时代前所未有方便的同时,由于Internet具有节点平等、自由发布的特点,网络资源不仅体现为分布式、高度动态和数量巨大,而且信息的质量良莠不齐,如何从海量信息中检索所需要的、高质量的化学信息,也是我们所面临的前所未有的挑战。
目前人们获取网络信息的主要方法是通用资源搜索引擎如Google、百度。由于Google在资源覆盖面(据称超过80亿Web页面)有压倒性优势, Google也成为检索化学信息最常用的工具。但由于Google索引的资源无所不包,因此检索化学信息时常遇到的问题是检索结果集非常大、且包含许多与检索意图相关性小的内容。因此建立面向化学领域、专门的网络化学信息检索工具成为人们努力的方向。本课题组近10年里一直致力于Internet化学信息资源挖掘方法的系统研究,将信息学方法与领域知识相结合,正逐步建成对网络化学化工数据、信息发现和利用的一整套专门工具,包括:(1) Internet化学化工资源导航ChIN; (2) Internet化学化工资源搜索引擎ChemEngine; (3) Internet化学化工深层网挖掘工具ChemDB Portal。这三种工具之间的关系、区别和概貌可简要地总结为下表:
检索工具 | 资源导航 ChIN | 搜索引擎ChemEngine | 深层网挖掘ChemDB Portal |
---|---|---|---|
对象(网络化学资源) | Web站点/页面 | Web页面 | 分布式数据库中的数据 |
本质(信息学+领域知识) | 链接分析 +信息源知识 +领域知识 | 链接分析 + 领域知识 | 数据深层结构分析+领域知识 |
方法特点 | 人工对资源进行发现、描述、组织 | 智能程序:控制爬行、自动分类 | 自动提交查询、数据提取、集成 |
主要技术 | DBMS+Web交互 | Web Robot + 文本自动分类 + 全文检索 | Java+XML+网格+? |
专门工具 | ChIN-Manager (资源描述与自动发布) | 爬行器、索引器、分类器、检索系统 | 查询构造、数据提取模版生成+数据映射+? |
系统规模 | > 10681Web站点/页面 | > 1000万Web页面 | 9个化学数据库 |
应用/访问方式 | Web浏览器(人浏览) | Web浏览器(人浏览) | Web浏览器(人浏览)应用程序 |
成熟度与影响力 | 整体性能超过同类系统;访问请求超过1亿次。 | 原型系统;初步测试好于同类系统。 | 尚未见同类系统。正在研发中。 |