基于单词贡献度和Word2Vec词向量的文档表示方法

消耗积分:0 | 格式:pdf | 大小:1.50 MB | 2021-04-29

分享资料个

　　针对现有文档向量表示方法受噪声词语影响和重要词语语义不完整的问题，通过融合单词贡献度与word2vec词向量提出一种新的文档表示方法。应用数据集训练word2vec模型，计算数据集中词语的贡献度，同时设置贡献度阈值，提取贡献度大于该阈值的单词构建单词集合。在此基础上，寻找文档与集合中共同存在的单词，获取其词向量并融合单词贡献度生成文档向量。实验结果表明，该方法在搜狗中文文本语料库和复旦大学中文文本分类语料库上分类的平均准确率、召回率和F1值均优于TFDF、均值Word2vec、PTF-IDF加权Word2vec模型等传统方法，同时其对英文文本也能进行有效分类。

下载并关注上传者 低至0.43元/天 开通VIP 免费下载

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

发评论

相关下载
相关文章

下载排行榜

继电保护原理
2024-08-21 15次下载

下载
BK4819模拟双向无线电集成电路数据手册
2024-08-05 10次下载

下载
TPL0501 256抽头单通道数字电位器数据表
2024-07-31 9次下载

下载
18W电源方案CR6212BSJ+CR3004SLD-实物样机图
2024-08-06 6次下载

下载
VL805和VL806的技术资料
2024-07-29 6次下载

下载
《单片机原理及接口技术》课程实验指导书
2024-07-31 5次下载

下载

全部0条评论

快来发表一下你的评论吧 !

'+ '

'+ ''+ '

'+ ''+ ''+ '

'+ ''+ '' ); $.get('/article/vipdownload/aid/'+webid,function(data){ if(data.code ==5){ $(pop_this).attr('href',"/login/index.html"); return false } if(data.code == 2){ //跳转到VIP升级页面 window.location.href="//m.lene-v.com/vip/index?aid=" + webid return false } //是会员 if (data.code > 0) { $('body').append(htmlSetNormalDownload); var getWidth=$("#poplayer").width(); $("#poplayer").css("margin-left","-"+getWidth/2+"px"); $('#tips').html(data.msg) $('.download_confirm').click(function(){ $('#dialog').remove(); }) } else { var down_url = $('#vipdownload').attr('data-url'); isBindAnalysisForm(pop_this, down_url, 1) } }); }); //是否开通VIP $.get('/article/vipdownload/aid/'+webid,function(data){ if(data.code == 2 || data.code ==5){ //跳转到VIP升级页面 $('#vipdownload>span').text("开通VIP 免费下载") return false }else{ // 待续费 if(data.code == 3) { vipExpiredInfo.ifVipExpired = true vipExpiredInfo.vipExpiredDate = data.data.endoftime } $('#vipdownload .icon-vip-tips').remove() $('#vipdownload>span').text("VIP免积分下载") } }); }).on("click",".download_cancel",function(){ $('#dialog').remove(); }) var setWeixinShare={};//定义默认的微信分享信息，页面如果要自定义分享，直接更改此变量即可 if(window.navigator.userAgent.toLowerCase().match(/MicroMessenger/i) == 'micromessenger'){ var d={ title:'基于单词贡献度和Word2Vec词向量的文档表示方法',//标题 desc:$('[name=description]').attr("content"), //描述 imgUrl:'https://'+location.host+'/static/images/ele-logo.png',// 分享图标,默认是logo link:'',//链接 type:'',// 分享类型,music、video或link，不填默认为link dataUrl:'',//如果type是music或video，则要提供数据链接，默认为空 success:'', // 用户确认分享后执行的回调函数 cancel:''// 用户取消分享后执行的回调函数 } setWeixinShare=$.extend(d,setWeixinShare); $.ajax({ url:"//www.lene-v.com/app/wechat/index.php?s=Home/ShareConfig/index", data:"share_url="+encodeURIComponent(location.href)+"&format=jsonp&domain=m", type:'get', dataType:'jsonp', success:function(res){ if(res.status!="successed"){ return false; } $.getScript('https://res.wx.qq.com/open/js/jweixin-1.0.0.js',function(result,status){ if(status!="success"){ return false; } var getWxCfg=res.data; wx.config({ //debug: true, // 开启调试模式,调用的所有api的返回值会在客户端alert出来，若要查看传入的参数，可以在pc端打开，参数信息会通过log打出，仅在pc端时才会打印。 appId:getWxCfg.appId, // 必填，公众号的唯一标识 timestamp:getWxCfg.timestamp, // 必填，生成签名的时间戳 nonceStr:getWxCfg.nonceStr, // 必填，生成签名的随机串 signature:getWxCfg.signature,// 必填，签名，见附录1 jsApiList:['onMenuShareTimeline','onMenuShareAppMessage','onMenuShareQQ','onMenuShareWeibo','onMenuShareQZone'] // 必填，需要使用的JS接口列表，所有JS接口列表见附录2 }); wx.ready(function(){ //获取“分享到朋友圈”按钮点击状态及自定义分享内容接口 wx.onMenuShareTimeline({ title: setWeixinShare.title, // 分享标题 link: setWeixinShare.link, // 分享链接 imgUrl: setWeixinShare.imgUrl, // 分享图标 success: function () { setWeixinShare.success; // 用户确认分享后执行的回调函数 }, cancel: function () { setWeixinShare.cancel; // 用户取消分享后执行的回调函数 } }); //获取“分享给朋友”按钮点击状态及自定义分享内容接口 wx.onMenuShareAppMessage({ title: setWeixinShare.title, // 分享标题 desc: setWeixinShare.desc, // 分享描述 link: setWeixinShare.link, // 分享链接 imgUrl: setWeixinShare.imgUrl, // 分享图标 type: setWeixinShare.type, // 分享类型,music、video或link，不填默认为link dataUrl: setWeixinShare.dataUrl, // 如果type是music或video，则要提供数据链接，默认为空 success: function () { setWeixinShare.success; // 用户确认分享后执行的回调函数 }, cancel: function () { setWeixinShare.cancel; // 用户取消分享后执行的回调函数 } }); //获取“分享到QQ”按钮点击状态及自定义分享内容接口 wx.onMenuShareQQ({ title: setWeixinShare.title, // 分享标题 desc: setWeixinShare.desc, // 分享描述 link: setWeixinShare.link, // 分享链接 imgUrl: setWeixinShare.imgUrl, // 分享图标 success: function () { setWeixinShare.success; // 用户确认分享后执行的回调函数 }, cancel: function () { setWeixinShare.cancel; // 用户取消分享后执行的回调函数 } }); //获取“分享到腾讯微博”按钮点击状态及自定义分享内容接口 wx.onMenuShareWeibo({ title: setWeixinShare.title, // 分享标题 desc: setWeixinShare.desc, // 分享描述 link: setWeixinShare.link, // 分享链接 imgUrl: setWeixinShare.imgUrl, // 分享图标 success: function () { setWeixinShare.success; // 用户确认分享后执行的回调函数 }, cancel: function () { setWeixinShare.cancel; // 用户取消分享后执行的回调函数 } }); //获取“分享到QQ空间”按钮点击状态及自定义分享内容接口 wx.onMenuShareQZone({ title: setWeixinShare.title, // 分享标题 desc: setWeixinShare.desc, // 分享描述 link: setWeixinShare.link, // 分享链接 imgUrl: setWeixinShare.imgUrl, // 分享图标 success: function () { setWeixinShare.success; // 用户确认分享后执行的回调函数 }, cancel: function () { setWeixinShare.cancel; // 用户取消分享后执行的回调函数 } }); }); }); } }); } function openX_ad(posterid, htmlid, width, height) { if ($(htmlid).length > 0) { var randomnumber = Math.random(); var now_url = encodeURIComponent(window.location.href); var ga = document.createElement('iframe'); ga.src = 'https://www1.elecfans.com/www/delivery/myafr.php?target=_blank&cb=' + randomnumber + '&zoneid=' + posterid+'&prefer='+now_url; ga.width = width; ga.height = height; ga.frameBorder = 0; ga.scrolling = 'no'; var s = $(htmlid).append(ga); } } openX_ad(828, '#berry-300', 300, 250);

基于单词贡献度和Word2Vec词向量的文档表示方法

PyTorch教程15.4之预训练word2vec

开源软件-phpword2vec PHP调用word2vec实现机器学习

基于LSTM的表示学习-文本分类模型

借助局部实体特征的事件触发词抽取方法

基于主题分布优化的模糊文本分类方法

基于双通道词向量的卷积胶囊网络文本分类算法

基于异构网络表示方法的论文影响力预测算法

低频词词向量优化在短文本分类中的应用

融合内容与多特征计算的个性化微博推荐模型

基于BERT+Bo-LSTM+Attention的病历短文分类模型

基于预训练模型和长短期记忆网络的深度学习模型

一种面向铁路文本分类的字符级特征提取方法

一种基于程序向量树的代码克隆检测方法

一种基于词和文档嵌入的关键词抽取方法

2种结合五笔字形的上下文相关字向量表示方法

融合BERT词向量与TextRank的关键词抽取方法

基于矩阵分解的网络表示学习算法ANEMF

一种捕获主题单词信息的主题模型JEA-LDA

新型中文旅游文本命名实体识别设计方案

如何进行改进随机游走进行网络表示学习算法资料说明

如何使用词向量和卷积神经网络进行垃圾短信识别的方法介绍

如何使用Word2vec模型进行古诗词个性化推荐的应用

配电网评估指标及其隶属度函数的研究

一种改进的视觉词袋方法

基于改进向量空间模型VSM的映射方法

基于多类别语义词簇的新闻读者情绪分类

基于语义向量表示的查询扩展方法的应用设计

结合弹性网络的稀疏分解方法的人脸识别

模糊支持向量机的改进方法

基于互信息和余弦的不良文档过滤

nlp自然语言处理模型有哪些

论文遭首届ICLR拒稿、代码被过度优化，word2vec作者Tomas Mikolov分享背后的故事

transformer原理解析

SpringBoot实现动态导出word文档

PyTorch教程-15.6. 子词嵌入

PyTorch教程-15.4. 预训练word2vec

Qdrant不只是高性能向量数据库

一个给NLP领域带来革新的预训练语言大模型Bert

如何提取Word文档表格保存到Excel

NLP入门之Bert的前世今生

用于损坏的Microsoft Word文档的数据恢复软件

一种有效的无监督深度表示器(Mix2Vec)

word文档如何解密

word文档解密方法说明

deepwalk算法核心的步骤

如何在word文档中添加“原汁原味”代码

你们了解Word2vec吗？读者一篇就够了

神经网络中词向量是怎么表示的？

运用多种机器学习方法比较短文本分类处理过程与结果差别

wordNet词向量和词义

自然语言处理的ELMO使用

讨论嵌入的概念，以及使用word2vec生成嵌入的机制

如何表示一个词语的意思？神经网络词嵌入的基本思路

Linux中用grep命令来搜索单词及统计匹配的行数

详解谷歌最强NLP模型BERT

词对嵌入技术，可以改善现有模型在跨句推理上的表现

自制Word2Vec图书推荐系统，帮你找到最想看的书！

OpenAI：用可扩展的多任务系统，在多语言任务上取得了良好的成绩

介绍Word2Vec和Glove这两种最流行的词嵌入方法背后的直觉

Python自然语言用金庸的武侠小说做分析和处理

下载排行榜

继电保护原理

BK4819模拟双向无线电集成电路数据手册

TPL0501 256抽头单通道数字电位器数据表

18W电源方案CR6212BSJ+CR3004SLD-实物样机图

VL805和VL806的技术资料

《单片机原理及接口技术》课程实验指导书