R语言对耐克NIKEID新浪微博数据K均值(K-MEANS)聚类文本挖掘和词云可视化

共 2636字,需浏览 6分钟

 ·

2023-01-07 02:20

全文链接:http://tecdat.cn/?p=31048


2009年8月,新浪微博(micro-blog)开始服务,随后各家微博服务在国内得到广泛传播和应用"点击文末“阅读原文”获取完整代码数据


微博具有文本信息短(140字包括标点符号)、词量少、裂变式传播、传播速度快、用词不规范等特征,使原文本可视化研究技术框架中的聚类或分类方法提取热点话题变得困难。

R语言主要用于统计分析与数据可视化,大量新兴研究领域算法不断更新,在人工智能领域有广泛的应用,R语言亦可用相对简单地完成微博可视化工作。

我们最近有一个很棒的机会与一位伟大的客户合作,要求构建一个耐克微博聚类算法。本文利用R语言完成对微博相应分析。

所要分析的数据对象为耐克nike微博热搜话题数据,数据样式如下图所示:

查看数据

文本预处理

res=pinglun1[pinglun1!=" "];

相关视频


剔除通用标题

res=gsub(pattern="NIKEiD"," ",res);   
res=gsub(pattern="http://t.cn/"," ",res);
res=gsub(pattern="com"," ",res);
res=gsub(pattern="耐克"," ",res);
res=gsub(pattern="官网"," ",res);
res=gsub(pattern="中国"," ",res);

分词+频数统计

keyword=lapply(X=res, FUN=segmentCN)
words=unlist(keyword);

绘制词汇图

library("wordcloud")

mycolors <- brewer.pal(8,"Dark2")#设置一个颜色系:
wordcloud(d$word,d$freq

 


点击标题查阅往期内容


自然语言处理NLP:主题LDA、情感分析疫情下的新闻文本数据


左右滑动查看更多


01

02

03

04



d2=data.frame(word=class2$word, freq=class2$freq);  

# 过滤掉1个字和词频小于100的记录

K均值聚类K-means

#创建聚类矩阵格式for(i in  1:nrow(cldata)){


   for(j in  unique(d$word) ){

    if(j %in%  unlist(keyword[i]))cldata[i,which(colnames(cldata) == j)]=1

  }

}

 

cl=kmeans(cldata,3)

聚类数据可视化

 

#cluster 1

y1=cldata[cldata$cluster==1,]

 

#cluster 2

 

y2=cldata[cldata$cluster==2,]

 

 #cluster 3

 

y3=cldata[cldata$cluster==3,]

1类词频云图

  

words=unlist(keyword[cl$cluster==1]);

2类词频云图

  

words=unlist(keyword[cl$cluster==2]);

3类词频云图




点击文末“阅读原文”

获取全文完整代码数据资料


本文选自《R语言对耐克NIKEID新浪微博数据K均值(K-MEANS)聚类文本挖掘和词云可视化》。


点击标题查阅往期内容

【视频】文本挖掘:主题模型(LDA)及R语言实现分析游记数据
NLP自然语言处理—主题模型LDA案例:挖掘人民网留言板文本数据
Python主题建模LDA模型、t-SNE 降维聚类、词云可视化文本挖掘新闻组数据集
自然语言处理NLP:主题LDA、情感分析疫情下的新闻文本数据
R语言对NASA元数据进行文本挖掘的主题建模分析
R语言文本挖掘、情感分析和可视化哈利波特小说文本数据
Python、R对小说进行文本挖掘和层次聚类可视化分析案例
用于NLP的Python:使用Keras进行深度学习文本生成
长短期记忆网络LSTM在时间序列预测和文本分类中的应用
用Rapidminer做文本挖掘的应用:情感分析
R语言文本挖掘tf-idf,主题建模,情感分析,n-gram建模研究
R语言对推特twitter数据进行文本情感分析
Python使用神经网络进行简单文本分类
用于NLP的Python:使用Keras的多标签文本LSTM神经网络分类
R语言文本挖掘使用tf-idf分析NASA元数据的关键字
R语言NLP案例:LDA主题文本挖掘优惠券推荐网站数据
Python使用神经网络进行简单文本分类
R语言自然语言处理(NLP):情感分析新闻文本数据
Python、R对小说进行文本挖掘和层次聚类可视化分析案例
R语言对推特twitter数据进行文本情感分析
R语言中的LDA模型:对文本数据进行主题模型topic modeling分析
R语言文本主题模型之潜在语义分析(LDA:Latent Dirichlet Allocation)
R语言对NASA元数据进行文本挖掘的主题建模分析
R语言文本挖掘、情感分析和可视化哈利波特小说文本数据
Python、R对小说进行文本挖掘和层次聚类可视化分析案例
用于NLP的Python:使用Keras进行深度学习文本生成
长短期记忆网络LSTM在时间序列预测和文本分类中的应用
用Rapidminer做文本挖掘的应用:情感分析
R语言文本挖掘tf-idf,主题建模,情感分析,n-gram建模研究
R语言对推特twitter数据进行文本情感分析
Python使用神经网络进行简单文本分类
用于NLP的Python:使用Keras的多标签文本LSTM神经网络分类
R语言文本挖掘使用tf-idf分析NASA元数据的关键字
R语言NLP案例:LDA主题文本挖掘优惠券推荐网站数据
Python使用神经网络进行简单文本分类
R语言自然语言处理(NLP):情感分析新闻文本数据
Python、R对小说进行文本挖掘和层次聚类可视化分析案例
R语言对推特twitter数据进行文本情感分析
R语言中的LDA模型:对文本数据进行主题模型topic modeling分析
R语言文本主题模型之潜在语义分析(LDA:Latent Dirichlet Allocation)


浏览 36
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐