随着互联网的飞速发展,大量的文本信息被分享到网上,如何在海量的网络信息中提取出可靠性较高的人物关系已成为信息抽取领域中的一个重要研究课题。为深入进行人物关系识别任务在中文方面的研究,提出了基于多元特征的分块人物关系识别系统,设计了较为完备的特征池,包括词袋特征、相关频率特征、依存树(DT)特征、命名实体识别(NER)特征等,为不同的关系从特征池中选择效果最佳的特征集合,并实验了多种基于有监督的机器学习分类算法。本系统在2015年中国机器学习会议竞赛( CCML Competition)举办的两个任务(Taskl是从单个新闻标题中判定给定人物的关系;Task2是从多个新闻标题中判定人物的关系)的数据集上分别取得了75. 68%和76. 58%的MacroF1值,均位列参赛成绩的第一名。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !