加入收藏 | 设为首页 | 会员中心 | 我要投稿 辽源站长网 (https://www.0437zz.com/)- 云专线、云连接、智能数据、边缘计算、数据安全!
当前位置: 首页 > 运营中心 > 建站资源 > 经验 > 正文

怎样成为知乎大V?爬取张佳玮138w+关注者:数据可视化

发布时间:2017-12-21 08:09:55 所属栏目:经验 来源:鸟哥笔记
导读:副标题#e# 一、前言 作为简书上第一篇文章,先介绍下小背景,即为什么爬知乎第一大V张公子的138w+关注者信息? 其实之前也写过不少小爬虫,按照网上各种教程实例去练手,“不可避免”的爬过妹子图、爬过豆瓣Top250 电影等等;也基于自身的想法,在浙大 120

3、10w+大V

前文已多次提到10w+大V,那么这 190 人里到底都有谁呢?这里以关注人数为权重,生成词云如下:

怎样成为知乎大V?爬取张佳玮138w+关注者:数据可视化

大家上知乎的话应该也有关注一些大V,许多名字应该并不陌生,比如马伯庸、动机在杭州、葛巾、朱炫、丁香医生等等,当然也会发现并不是所有大V都关注了张公子,哪怕他是知乎第一人,目前已交出了 3026 个回答, 135 个知乎收录回答的傲人成绩(据说也是豆瓣和虎扑第一人)。

4、居住地分布

终于到了我最初开始这个项目时,最想获取的的信息了。虽然由于爬取效率而筛选掉了 100 关注以下的id共134w,数据量方面不如标题所示的那么多,略有遗憾,但其实真的拿到4.1w+条较优质数据时,发现处理起来也并不容易。

比如这里的居住地信息,有乱填水星、火星、那美克星,也有填国家、省份、县市、街道格式不一的,还有诸如老和山之类外行人不明白的“哑谜”等等,数据之脏令人头疼,且纯文本的数据又不像数字类可以筛选、排序,还没想到好的方式应对。再者Echarts官网虽然有不少可以套用的模板,但有很多地方的经纬度需要重新获取,这样就在数据处理和地图上定位有两处难题需要解决。

(编辑:辽源站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读