化学化工资源的挖掘----高性能计算与化学信息学课题组

化学化工资源的挖掘

　　随着Internet的普及，网络在过去的10年间已经成为获取化学信息的主要途径,也改变了日常的研究、研究成果传播、学习新知识的方式。在享受信息时代前所未有方便的同时，由于Internet具有节点平等、自由发布的特点，网络资源不仅体现为分布式、高度动态和数量巨大，而且信息的质量良莠不齐，如何从海量信息中检索所需要的、高质量的化学信息，也是我们所面临的前所未有的挑战。

　　目前人们获取网络信息的主要方法是通用资源搜索引擎如Google、百度。由于Google在资源覆盖面(据称超过80亿Web页面)有压倒性优势, Google也成为检索化学信息最常用的工具。但由于Google索引的资源无所不包，因此检索化学信息时常遇到的问题是检索结果集非常大、且包含许多与检索意图相关性小的内容。因此建立面向化学领域、专门的网络化学信息检索工具成为人们努力的方向。本课题组近10年里一直致力于Internet化学信息资源挖掘方法的系统研究，将信息学方法与领域知识相结合，正逐步建成对网络化学化工数据、信息发现和利用的一整套专门工具，包括：(1) Internet化学化工资源导航ChIN; (2) Internet化学化工资源搜索引擎ChemEngine; (3) Internet化学化工深层网挖掘工具ChemDB Portal。这三种工具之间的关系、区别和概貌可简要地总结为下表：

检索工具	资源导航 ChIN	搜索引擎ChemEngine	深层网挖掘ChemDB Portal
对象(网络化学资源)	Web站点/页面	Web页面	分布式数据库中的数据
本质(信息学+领域知识)	链接分析 +信息源知识 +领域知识	链接分析 + 领域知识	数据深层结构分析+领域知识
方法特点	人工对资源进行发现、描述、组织	智能程序：控制爬行、自动分类	自动提交查询、数据提取、集成
主要技术	DBMS+Web交互	Web Robot + 文本自动分类 + 全文检索	Java+XML+网格+?
专门工具	ChIN-Manager (资源描述与自动发布)	爬行器、索引器、分类器、检索系统	查询构造、数据提取模版生成+数据映射+?
系统规模	> 10681Web站点/页面	> 1000万Web页面	9个化学数据库
应用/访问方式	Web浏览器(人浏览)	Web浏览器(人浏览)	Web浏览器(人浏览)应用程序
成熟度与影响力	整体性能超过同类系统；访问请求超过1亿次。	原型系统；初步测试好于同类系统。	尚未见同类系统。正在研发中。