在手机、平板电脑等电子媒介的人均持有率大于一的今天,网络自媒体的传播达到了前所未有的巅峰。本文通过基于Hadoop平台的mahout数据挖掘框架,选用经过Canopy算法优化后的K-means聚类分析算法,对数据进行聚类分析,对内涵众多信息的网络自媒体推文进行数据挖掘,以发现微博数据中蕴含的与当下社会和生活相关的热点词,后通过ArcGIS,对文本类簇进行核密度分析,再做渔网栅格化分析,使离散的类簇样本具备邻接性,能在可视化中直观地看到类簇主题的主要分布情况,以研究人们日常生活中的习惯、了解单一个人的喜好,以及对某个社会事件的评价等日常生活中隐含着关于社会和生活相关的信息。
在互联网技术快速发展的今天,网络自媒体在近些年得到了爆炸式的增长,它以病毒传播的形式快速地渗透到了各行各业中,给予了所有人展示自我和了解他人的途径[1]。新浪微博作为国内大型网络自媒体平台之一,它具有庞大的用户基础,以及由这基数庞大的用户群体所产生的与个人生活或社会现象等与各行各业相关的大量信息;随着Web2.0 时代的发展成熟,微博除了基于常规数据的数据挖掘以外,还有大量的包含有经纬度位置属性的数据;这些空间位置数据可以很好地将我们的信息挖掘结果通过各大地图的前端API 很直观地展示出来,让我们能很好地发现各种个人生活或社会现象等与各行各业、个人相关的话题或者感兴趣的商品等事物的空间分布规律等的空间信息,因此基于微博的数据挖掘研究是十分有价值的科研方向。
空间数据挖掘与知识发现(SDMKD, Spatial Data Mining and Knowledge Discovery)是数据挖掘和知识发现的分支学科,它通过对空间数据集进行一系列的处理,最终得到空间特征规则、空间聚类规则以及空间分布规律等能够直观展现空间实体的信息。最早开始关注、了解空间数据挖掘这一领域的人,是李德仁院士,他曾经在二十世纪末期召开的国际地理信息系统学术会议上,由他首次提出空间数据挖掘和知识发现理论,且研究并提出了空间数据挖掘和知识发现的理论框架。在现存的空间数据库里蕴含着巨量的信息,其中包括山高、河宽等可以使用地理信息系统的查询工具发现的浅层信息;但除了浅层信息以外还有很多深层次的,如空间分类规则、空间偏差等信息则难以利用地理信息系统的查询方法来获取,只能通过运算或者挖掘等手段才能够发现这些信息。
由于云计算的迅速崛起,为我们在解决机器学习中的聚类问题时面临的复杂、大量的迭代计算提供了出色的解决方案;其中在众多的分布式计算框架中,开源框架Hadoop 以其稳定的性能和廉价的成本被众多企业和科研机构所青睐,与传统并行框架相比,它具有高效、高可用、易部署等特点;apache 组织在该平台基础上开发了一个针对机器学习算法的计算框架——mahout;本文将以使用mahout 加上Hadoop组成的平台为基础:Hadoop 生态中的HDFS 为数据存储系统;Hadoop 生态中的MapReduce 为分布式计算框架;然后选用Canopy 算法优化后的K-means 聚类分析算法,利用搭载在Hadoop 集群上的Mahout数据挖掘框架来实现并行的聚类算法操作,最后,使用可视化分析的手段,将带有主题的类簇展示在地图上,用这种更直观的方式来分析这些微博数据所蕴含的信息,以研究网络舆论中隐含着关于社会和生活中相关的信息,为社会的和谐、稳定的发展提供支持。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !