传统的文本分类方法仅使用一种模型进行分类,容易忽略不同类别特征词出现交叉的情况,影响分类性能。为提高文本分类的准确率,提岀基于主题相似性聚类的文本分类算法。通过CH和 Wordcount相结合的方法提取类特征词,利用K- means算法进行聚类并提取簇特征词构成簇特征词库。在此基础上,通过 Adaptive Strategy算法自适应地选择 fasttext Textcnn或RCNN模型进行分类,得到終分类结果。在 AG News数据集上的实验结果表明,该算法可较好地解决不同类别特征词交叉的问题,与单fasttext、 Texton、RCNN模型相比,其本分类性能显著提升。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !