博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
如何利用Python词云和wordart可视化工具对朋友圈数据进行可视化展示
阅读量:6079 次
发布时间:2019-06-20

本文共 1107 字,大约阅读时间需要 3 分钟。

大前天我们通过Python网络爬虫对朋友圈的数据进行了抓取,感兴趣的朋友可以点击进行查看,和。今天小编带大家通过词云去将其进行可视化,具体的教程如下。

1、在Python中做词云,需要用到wordcloud库和jieba分词库,没有安装的伙伴可以直接pip安装即可。

2、之后你可能还需要一些字体,如simhei.ttf等,这些字体在网上都有,可以直接进行下载,在做词云的时候会用得到,如下图所示。

3、在items.py的同级目录下建立analyse.py文件,定义analyse_words方法,用于实现词云可视化,jieba.cut用于得到分词结果,具体的代码实现,如下图所示。因为得到的moment.json数据是以JSON格式存储的,所以需要在该文件中导入JSON模块对其进行解析。

这个地方需要注意一下,由于我们的memoent.json文件中是中文字符,如果在open()函数中没有加入encoding=’utf-8’的话会导致gbk编码错误,记得将编码加上即可。

4、之后运行程序,得到keys.png图片文件,程序运行的效果如下图所示。可以看到keys.png已经在items.py目录下了。

5、双击keys.png,如下图所示。

6、不得不承认,这个词云图片内容确实丰富,不过也十分的丑。小编利用wordart(一个词云网站)将朋友圈数据进行更加美化的可视化。

7、比方说用动物的图案进行可视化,效果图如下图所示。

8、如果直接将数据进行导入的话,wordart会直接将整段话进行可视化,这样显得十分冗余,看上去也不太友好,因此还需要通过Python对数据进行分频统计,之后再导入到wordart中就可以看到想要的效果了。首先,我们需要对json文件进行处理一下,将文本全部导出来,形成一个moment.txt文件。内容如下图所示。

9、编写代码,将文本进行分词,代码实现如下所示。

10、程序运行完成之后,得到的moment_outputs.txt文件,内容如下图所示,可以很清楚的看到分词情况。红色部分是程序运行的过程。

11、继续编写代码,将词频进行统计汇总,代码实现如下图所示。

12、程序运行之后,得到一个txt和Excel文件,里边是关于词频统计的信息,如下图所示。红色部分是程序运行的结果,并没有报错。

13、将这些关键字导入到wordart中进行可视化,如下图所示。

14、设置一下图案、字体、排版、颜色等等,就可以生成绚丽的词云图了,下图是汪星人词云图。

15、下图是小云朵词云图,可以给视觉带来一场饕餮盛宴。

小伙伴们,你们有没有觉得很神奇呢?喜欢的话欢迎收藏和转载噢~~

你可能感兴趣的文章
POI支持的颜色对比
查看>>
linux内核编译(fedora16_x86_64)
查看>>
iOS 键盘自适应(IQKeyboardManager)使用小结
查看>>
解决vsftpd用户登录出现500 OOPS: cannot change directory问题
查看>>
修改CentOS发行信息以绕过磁盘阵列多路合并软件的操作系统检查
查看>>
阅读JDK8 CopyOnWriteArraySet应该了解什么
查看>>
Objective-c和Java下DES加密保持一致的方式
查看>>
RequireJS + AngularJS Seed 13 _Grunt-plugin
查看>>
python3统计文件中字符或字符串出现的次数,支持同时多个字符串
查看>>
Redis 的 8 大应用场景!
查看>>
nginx 安装
查看>>
Django学习笔记(1)---引入静态资源
查看>>
鸟哥的Linux笔记----20180113
查看>>
quick-cocos2d-x开发工具sublime text及其强力插件QuickXDev
查看>>
CURL模拟HTTP浏览器动作常用命令-作弊投票利器
查看>>
mysql集群方案整理之Galera Cluster简介
查看>>
C# 文件上传类
查看>>
interlliJ idea 与 sonarQube 的集成使用
查看>>
spring注解入门
查看>>
git误上传了一个非常大的文件,如何删除
查看>>