脱单难!我用Python采集了几千条相亲文案,然后发现...
菜鸟学Python
共 2990字,需浏览 6分钟
· 2022-01-03
代码的编写过程
Python
当中的requests
库来发送和接受请求,通过正则表达式re
这个库来解析数据import requests
from tenacity import *
import re
import time
retry
装饰器来多次尝试@retry(stop=stop_after_attempt(5))
def do_requests(url):
response = requests.get(url, headers=headers, proxies=proxies, timeout=10)
return response.text
re
库来实现的,date_of_birth = re.compile("
①出生年月/星座(.*?)
", re.M | re.S)
sex = re.compile("
【基本资料】(.*?)
")
height = re.compile("
②身高/体重(.*?)
")
education = re.compile("
⑤学历(.*?)
")
jobs_1 = re.compile("
⑥职业(.*?)
")
income = re.compile("
⑦月均收入(.*?)
")
married = re.compile("
⑨有无婚史(.*?)
")
house_cars = re.compile("
⑧车房情况(.*?)
")
self_intro = re.compile("
⑪ 自我介绍(.*?)
")
requirements = re.compile("
【择偶标准】
(.*?)")
family_member = re.compile("
⑩家庭成员(.*?)
")
pyecharts
库来绘制一下分析的结果,对了,要是读者朋友不知道怎么使用pyecharts
这个库,可以阅读一下小编写的上几篇文章,都是非常干货的20个精美图表,教你玩转Pyecharts可视化 干货分享 | 用Pyecharts制作炫酷的可视化大屏 分享一个Pyecharts中非常重要的组件,可以大大提高绘制图表的效率 Pyecharts绘制22种超实用精美图表
结果的可视化展示
review_list = []
reviews = get_cut_words("".join(df_girls["requirements"].astype(str).tolist()))
reviews_counter = Counter(reviews).most_common(200)
print(reviews_counter)
for review in reviews_counter:
review_list.append((" " + review[0] + " ") * review[1])
stylecloud.gen_stylecloud(text=" ".join(review_list), max_words=500, collocations=False,
font_path="KAITI.ttf", icon_name="fab fa-apple", size=653,
output_name="4.png")
写在最后
推荐阅读:
入门: 最全的零基础学Python的问题 | 零基础学了8个月的Python | 实战项目 |学Python就是这条捷径
干货:爬取豆瓣短评,电影《后来的我们》 | 38年NBA最佳球员分析 | 从万众期待到口碑扑街!唐探3令人失望 | 笑看新倚天屠龙记 | 灯谜答题王 |用Python做个海量小姐姐素描图 |碟中谍这么火,我用机器学习做个迷你推荐系统电影
趣味:弹球游戏 | 九宫格 | 漂亮的花 | 两百行Python《天天酷跑》游戏!
AI: 会做诗的机器人 | 给图片上色 | 预测收入 | 碟中谍这么火,我用机器学习做个迷你推荐系统电影
小工具: Pdf转Word,轻松搞定表格和水印! | 一键把html网页保存为pdf!| 再见PDF提取收费! | 用90行代码打造最强PDF转换器,word、PPT、excel、markdown、html一键转换 | 制作一款钉钉低价机票提示器! |60行代码做了一个语音壁纸切换器天天看小姐姐!|
年度爆款文案
点阅读原文,看200个Python案例!
评论
Python列表知识应知应会
点击上方“Go语言进阶学习”,进行关注回复“Go语言”即可获赠从入门到进阶共10本电子书今日鸡汤只在此山中,云深不知处。一、前言 在Python程序开发中,列表(List)经常会使用。假设一个班里有50个学生现需要统计每一个学生的总成绩情况,如果不使用列
Go语言进阶学习
0
delorean,一个超级实用的 Python 库!
作者通常周更,为了不错过更新,请点击上方“Python碎片”,“星标”公众号大家好,今天为大家分享一个超级实用的 Python 库 - delorean。Github地址:https://github.com/myusuf3/delorean/时间在计算机科学和软件开发中是一个至关重要的概念。Pyt
Python 碎片
0
五一Python抢票神器来了
还在为五一回家抢不到火车票发愁吗?今天介绍一个Python抢票神器,希望对你有帮助。Py12306是一个流行的开源项目,旨在帮助用户更便捷地查询和预订中国铁路12306网站上的火车票。以下是使用Py12306的基本步骤和一些注意事项:安装与环境准备安装Python: 确保你的系统中安装了Python
Python小二
1
我用这10招,能减少了80%的BUG
将Python客栈设为“星标⭐”第一时间收到最新资讯前言对于大部分程序员来说,主要的工作时间是在开发和修复BUG。有可能修改了一个BUG,会导致几个新BUG的产生,不断循环。那么,有没有办法能够减少BUG,保证代码质量,提升工作效率?答案是肯定的。如果能做到,我们多出来的时间,多摸点鱼,做点自己喜欢
Python客栈
0
请问哪位大佬有空?我自己搞不定pycharm安装调试了?
点击上方“Python共享之家”,进行关注回复“资源”即可获赠Python学习资料今日鸡汤残云归太华,疏雨过中条。大家好,我是Python进阶者。一、前言前几天在Python最强王者交流群【斌】问了一个Python环境安装的问题,请问哪位大佬有空?我自己搞不定pycharm安装调试了。二、实现过程这
IT共享之家
0
python读取多个excel表多个sheet后映射匹配再分组计算、纵向拼接
大家好,我是飞奔的蜗牛ing。一、前言前几天在一个客户给到一单数据处理的 问题,需求是这样的:1.表“aa2020”中2020年数据需要按季度分成四个表。(1-3月、4-6月、7-9月、10-12月)2.表“2020年一季度”代表2020年一季度客户所对应的管理档位,需要把表中的档位导入附表“aa2
IT共享之家
0
周鸿祎:雷军说小米SU7不适合我,等小米做SUV时再推荐
360公司创始人周鸿祎在互联网30周年座谈会上向雷军提出想要体验小米SU7的请求,但被雷军婉拒。雷军给出的理由是,他仔细研究了周鸿祎的选车标准,发现周鸿祎不会开车,只坐后座,而小米SU7是为追求驾驶乐趣的用户设计的,因此不适合周鸿祎。雷军还表示,等到小米推出SUV版本时,再推荐给周鸿祎。目前已知明确
Python涨薪研究所
0
五一抢票难,Python抢票脚本,火了!
大家好,今天继续聊聊科技圈发生的那些事。一、py12306话说回来,也快到五一了,不知道小伙伴们有没有出行计划呢?是选择回家,还是出去旅游呢?出行票的第一轮应该是放完了,我们就来赶赶末班车吧。py12306 这个项目其实就是一个抢票的工具,或许是临近出行购票热潮,这类项目又狠狠火了一把。工具的使用非
Jack Cui
7129