Web化学化工资源的挖掘及化学信息学

祝宇, 夏诏杰, 聂峰光, 郭力, 支持向量机在化学主题爬虫中的应用, 计算机与应用化学, 2006, 23(4):329-332

引用格式: 祝宇, 夏诏杰, 聂峰光, 郭力, 支持向量机在化学主题爬虫中的应用, 计算机与应用化学, 2006, 23(4):329-332
标题:支持向量机在化学主题爬虫中的应用
作者: 祝宇, 夏诏杰, 聂峰光, 郭力;中国科学院过程工程研究所多相复杂系统国家重点实验室:高性能计算与化学信息学课题组
关键词: 支持向量机(SVM); 化学主题爬虫; 文本分类; 搜索引擎
摘要:爬虫是搜索引擎的重要组成部分,它沿着网页中的超链接自动爬行,搜集各种资源。为了提高对特定主题资源的采集效率,文本分类技术被用来指导爬虫的爬行。本文把基于支持向量机的文本自动分类技术应用到化学主题爬虫中,通过SVM 分类器对爬行的网页进行打分,用于指导它爬行化学相关网页。通过与基于广度优先算法的非主题爬虫和基于关键词匹配算法的主题爬虫的比较,表明基于SVM分类器的主题爬虫能有效地提高针对化学Web资源的采集效率。