Web化学化工资源的挖掘及化学信息学

?S? 聂峰光, 郭力, 利用未标记数据提高SVM分类器性能的研究, 计算机工程与应用, 2006, (27)166-167

引用格式: 祝宇, 聂峰光, 郭力, 利用未标记数据提高SVM分类器性能的研究, 计算机工程与应用, 2006, (27)166-167
标题:利用未标记数据提高SVM分类器性能的研究
作者: 祝宇, 聂峰光, 郭力;中国科学院过程工程研究所多相复杂系统国家重点实验室:高性能计算与化学信息学课题组
关键词: 文本分类; 未标记; Rocchio法; K近邻法; 支持向量机
摘要:监督学习算法的一个主要困难在于需要大量标记过的训练集数据,采用人工的方法不够现实。文章提出了SVM分类器在少量标记训练样本情况下,采用Rocchio法和KNN方法从大量的未标记数据中,挑选相似度较高、区别度较大的数据加入到训练集中,弥补训练样本的不足。实验表明该算法有效地利用了丰富的未标记数据,减少了人工标记量,较好地提高了SVM分类器的性能。