Web化学化工资源的挖掘及化学信息学

霍东云, 聂峰光, 郭力, 利用Medline文摘数据库研究文本分类, 计算机与应用化学, 2007, 24(9):1281-1284

引用格式: 霍东云, 聂峰光, 郭力, 利用Medline文摘数据库研究文本分类, 计算机与应用化学, 2007, 24(9):1281-1284
标题:利用Medline文摘数据库研究文本分类
作者: 霍东云, 聂峰光, 郭力;中国科学院过程工程研究所多相复杂系统国家重点实验室:高性能计算与化学信息学课题组
关键词: Medline; 文本分类; SVM
摘要:文本分类领域的困难,在于如何获得大量人工标记好的分类样本数据集,Medline数据库在专家的长期维护下,具有完善的基于MeSH(Medical Subject Headings)的分类体系,以及大量的文摘,可用来制作分类样本数据集。本文介绍和研究Medline数据库,提出如何利用它构建良好的分类模型,实验表明,利用Medline文摘数据库,通过Major标记,特征项数目采用5000,训练样本采用600,利用SVM分类器,可得较好的分类模型,从而为文本分类研究提供一种实用、高效的数据集制作方式。