用Python采集了几千条相亲文案,终于发现了告别单身的秘密
数据森麟
共 3556字,需浏览 8分钟
· 2021-11-04
公众号后台回复“图书“,了解更多号主新书内容
代码的编写过程
Python
当中的requests
库来发送和接受请求,通过正则表达式re
这个库来解析数据import requests
from tenacity import *
import re
import time
retry
装饰器来多次尝试@retry(stop=stop_after_attempt(5))
def do_requests(url):
response = requests.get(url, headers=headers, proxies=proxies, timeout=10)
return response.text
re
库来实现的,date_of_birth = re.compile("<br/>①出生年月/星座(.*?)<br/>", re.M | re.S)
sex = re.compile("<br/>【基本资料】(.*?)<br/>")
height = re.compile("<br/>②身高/体重(.*?)<br/>")
education = re.compile("<br/>⑤学历(.*?)<br/>")
jobs_1 = re.compile("<br/>⑥职业(.*?)<br/>")
income = re.compile("<br/>⑦月均收入(.*?)<br/>")
married = re.compile("<br/>⑨有无婚史(.*?)<br/>")
house_cars = re.compile("<br/>⑧车房情况(.*?)<br/>")
self_intro = re.compile("<br/>⑪ 自我介绍(.*?)<br/>")
requirements = re.compile("<br/>【择偶标准】<br/>(.*?)</a>")
family_member = re.compile("<br/>⑩家庭成员(.*?)<br/>")
pyecharts
库来绘制一下分析的结果,对了,要是读者朋友不知道怎么使用pyecharts
这个库,可以阅读一下小编写的上几篇文章,都是非常干货的20个精美图表,教你玩转Pyecharts可视化 干货分享 | 用Pyecharts制作炫酷的可视化大屏 分享一个Pyecharts中非常重要的组件,可以大大提高绘制图表的效率 Pyecharts绘制22种超实用精美图表
结果的可视化展示
review_list = []
reviews = get_cut_words("".join(df_girls["requirements"].astype(str).tolist()))
reviews_counter = Counter(reviews).most_common(200)
print(reviews_counter)
for review in reviews_counter:
review_list.append((" " + review[0] + " ") * review[1])
stylecloud.gen_stylecloud(text=" ".join(review_list), max_words=500, collocations=False,
font_path="KAITI.ttf", icon_name="fab fa-apple", size=653,
output_name="4.png")
写在最后
◆ ◆ ◆ ◆ ◆
麟哥新书已经在当当上架了,我写了本书:《拿下Offer-数据分析师求职面试指南》,目前当当正在举行活动,大家可以用相当于原价5折的预购价格购买,还是非常划算的:
数据森麟公众号的交流群已经建立,许多小伙伴已经加入其中,感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容,还没有加入的小伙伴可以扫描下方管理员二维码,进群前一定要关注公众号奥,关注后让管理员帮忙拉进群,期待大家的加入。
管理员二维码:
猜你喜欢 ● 你相信逛B站也能学编程吗
评论