引用格式: 夏诏杰, 梁春燕, 郭力, 化学主题网络爬虫的设计和实现, 计算机工程与应用, 2006, 42(10):204-205
标题:化学主题网络爬虫的设计和实现
作者: 夏诏杰, 梁春燕, 郭力;中国科学院过程工程研究所多相复杂系统国家重点实验室:高性能计算与化学信息学课题组
关键词: 主题爬虫; 主题搜索引擎; 化学主题网络爬虫; Widrow-Hoff分类器
摘要:由于通用搜索引擎检索返回的结果过多、主题相关性不强以及随着人们对提供的各项信息服务的要求越来越高,基于整个Web的信息采集越来越力不从心。同时它无法及时地采集到足够的最新的Web信息,也不能满足人们日益增长的个性化需求。本文通过把Internet化学资源导航系统所积累的化学知识与搜索引擎的自动采集技术相结合展开了对化学主题网络爬虫开发的研究。结果表明,基于Widrow-Hoff分类器的化学主题网络爬虫能有效的采集化学相关的网页。