300元Python私活,实现网易云课堂爬虫
蚂蚁学Python
共 5199字,需浏览 11分钟
· 2022-05-29
今天是周六,起来的比较晚,突然收到帅帅老师的微信,大概意思是有一个单子,上次的这个单子,接单人说没时间做,退给他了,前几天这个单子其实我已经试着做了一下,也实现了功能,把结果也发给帅帅老师了,正好上次的接单人没有时间,真是一个意外的惊喜,瞬间睡意全无,开干。
爬取目标
网易云课堂套餐的首页和单个课程信息
爬取过程
1、 打开套餐首页测试链接,这里需要记录套餐名字;2、 得到里面的每个课程的URL
3、 访问每个课程的URL,得到如下信息:
4、 存入最终的Excel文件 文件名:套餐名字,例如 完全零基础入门深度学习.xlsx
代码实现
其中用到的技术,是前不久从帅帅老师视频那里学到的selenium,代码结构如下:
driver = webdriver.Chrome()
driver.get(url)
WebDriverWait(self.driver, timeout=10).until
driver.execute_script
driver.page_source
html.xpath('//*[@class="section"]')
node.xpath('./span[3]/text()')
在帅帅老师的指点下,还用到了显示等待WebDriverWait()新知识,爬取效率由原来的196秒缩减到85秒。
保存excel还用到了openpyxl模块,其实也可以用pandas的to_excel进行数据的保存,这里使用了openpyxl。代码结构如下:
wb = Workbook()
ws1 = self.wb.active
ws1.title
ws1.append(['课程序号', '课程名字', '课程URL'])
ws1.append(content)
wb.save(filename=self.dest_filename)
话不多说直接上完整代码
import pandas as pd
from lxml import etree
import time, re
from openpyxl import Workbook
from selenium import webdriver
from fake_useragent import UserAgent
from selenium.webdriver.support.wait import WebDriverWait
class WangYiYunKeTang():
def __init__(self):
# 伪装请求头
user_agent = UserAgent().random
self.headers = {'User-Agent': user_agent}
self.wb = Workbook()
# 定义一个工作簿名称
self.dest_filename = '网易云课堂的套餐课信息.xlsx'
# 激活一个表单
self.ws1 = self.wb.active
# 为工作表起名字
self.ws1.title = '详情数据'
# 添加标题
self.ws1.append(['课程序号', '课程名字', '课程URL', '多少人学过', '课程价格(元)', '第几课时', '课时标题', '时长', '时长秒数(秒)'])
# 获取每个课程的URL
def getEachCourseUrl(self):
url = 'https://study.163.com/series/1202914611.htm'
self.driver.get(url)
time.sleep(1)
js = 'window.scrollTo(0, document.body.scrollHeight)'
self.driver.execute_script(js)
time.sleep(1)
page_text = self.driver.page_source
html = etree.HTML(page_text)
# 每个课程的URL列表
href = html.xpath('//*[@class="wrap m-test5-wrap f-pr f-cb"]/a/@href')
return href
# 获取每个课程的详细信息
def getEachCourseDetailed(self):
href = self.getEachCourseUrl()
# href = ['/course/introduction/1209400837.htm']
# print(href)
for idx, i in enumerate(list(href)):
# 获取课程id
id = ''.join(re.findall('\d', i))
# 拼接每个课程的URL完整地址
url = f'https://study.163.com/course/introduction.htm?courseId={id}#/courseDetail?tab=1'
# 课程URL
print(url)
self.driver.get(url)
# 课时、关于我们等关键词出现了,页面就是加载完毕
WebDriverWait(self.driver, timeout=10).until(
lambda x: "关于我们" in self.driver.page_source and "课时" in self.driver.page_source)
# time.sleep(1)
js = 'window.scrollTo(0, document.body.scrollHeight)'
self.driver.execute_script(js)
# time.sleep(1)
page_text = self.driver.page_source
html = etree.HTML(page_text)
# 课程名字
name = html.xpath('//*[@class="u-coursetitle f-fl"]/h2/span/text()')[0]
# 多少人学过
many_people = html.xpath('//*[@class="u-coursetitle f-fl"]/div/span[1]/text()')[0].replace('人学过', '')
# 课程价格
price = html.xpath('//*[@class="price"]/text()')[0].replace('¥ ', '')
nodes = html.xpath('//*[@class="section"]')
for node in nodes:
# 第几课时
class_hour = node.xpath('./span[1]/text()')[0].replace('课时', '')
# 课程标题
class_title = node.xpath('./span[3]/text()')[0]
# 时长,时长有空的情况需要判断
duration = node.xpath('./span[4]/span[1]/text()')
duration = duration[0] if len(duration) > 0 else '无时长'
# 时长切分成分和秒
if duration != '无时长':
duration_split = duration.split(':')
# 时长秒数
duration_second = int(duration_split[0]) * 60 + int(duration_split[1])
content = [idx + 1, name, url, many_people, price, class_hour, class_title, duration,
duration_second]
# 调用写excel方法
self.write_excel(content)
print(content, '写入excel成功')
else:
duration_second = '无秒数'
content = [idx + 1, name, url, many_people, price, class_hour, class_title, duration,
duration_second]
# 调用写excel方法
self.write_excel(content)
print(content, '写入excel成功')
# 写excel
def write_excel(self, content):
# 添加数据
self.ws1.append(content)
# 保存文件
self.wb.save(filename=self.dest_filename)
# 主函数
def main(self):
# 开始时间
start_time = time.time()
# 统一获取driver
self.driver = webdriver.Chrome()
# 调用获取每个课程的详细信息方法
self.getEachCourseDetailed()
# 总耗时
use_time = int(time.time()) - int(start_time)
print(f'爬取总计耗时:{use_time}秒')
# 退出
self.driver.quit()
if __name__ == '__main__':
wyykt = WangYiYunKeTang()
wyykt.main()
当然,中间调试花了一些时间,因为获取到html页面后用xpath定位元素的时候没有找对,反复调试了一番。运行程序之后,只花了85s的时间就完成了数据的爬取,在没有用到并发技术情况下还算比较快的了。
最后展示一下成果
今天也多了一笔额外的收入,开心开心
↓点击阅读原文,欢迎了解蚂蚁老师的Python大套餐,购买课程提供11答疑、副业接单权限。
评论
用 Shader 实现旗帜飘扬动画效果
我觉得对于刚入门 3D 编程的朋友来说,如果能够完成代码创建模型数据->创建材质->编写Shader动画这一系列,想必会有满满的成就感。今天就用 Cocos Creator 的 utils.MeshUtils.createMesh 接口,带大家感受一下这个流程。这个流程不仅可以用于新手学
COCOS
2
Python列表知识应知应会
点击上方“Go语言进阶学习”,进行关注回复“Go语言”即可获赠从入门到进阶共10本电子书今日鸡汤只在此山中,云深不知处。一、前言 在Python程序开发中,列表(List)经常会使用。假设一个班里有50个学生现需要统计每一个学生的总成绩情况,如果不使用列
Go语言进阶学习
0
Python 字符串应该用双引号还是单引号?
转载来源:洪尔摩斯PyCharm升级至 2023.2版本后,经常弹出来一个提示问我要不要试一下Black formatter。试了一下,这个Black formatter 很有个性,特别喜欢换行。我的一个文件用PyCharm自带的代码整理器整理完之后是500行左右,然后再用Black整理就变成600
菜鸟学Python
0
delorean,一个超级实用的 Python 库!
作者通常周更,为了不错过更新,请点击上方“Python碎片”,“星标”公众号大家好,今天为大家分享一个超级实用的 Python 库 - delorean。Github地址:https://github.com/myusuf3/delorean/时间在计算机科学和软件开发中是一个至关重要的概念。Pyt
Python 碎片
0
五一Python抢票神器来了
还在为五一回家抢不到火车票发愁吗?今天介绍一个Python抢票神器,希望对你有帮助。Py12306是一个流行的开源项目,旨在帮助用户更便捷地查询和预订中国铁路12306网站上的火车票。以下是使用Py12306的基本步骤和一些注意事项:安装与环境准备安装Python: 确保你的系统中安装了Python
Python小二
1
PyPy为什么能让Python比C还快?一文了解内在机制
我的小册:(小白零基础用Python量化股票分析小册) ,原价299,限时特价2杯咖啡,满100人涨10元。来源:机器之心「如果想让代码运行得更快,您应该使用 PyPy。」—— Python 之父 Guido van Rossum对于研究人员来说,迅速把想法代码化并查看其是否行得通至关重要。Pyth
菜鸟学Python
0
CleverCSV,一个神奇的 python 库!
我的小册:(小白零基础用Python量化股票分析小册) ,原价299,限时特价2杯咖啡,满100人涨10元。来源丨网络介绍CleverCSV 是一个基于 Python 的库,旨在提供比标准库 csv 更智能和灵活的方法来处理 CSV 文件。该库使用机器学习算法来探测 CSV 文件的正确拨号结构,从而
菜鸟学Python
0
python读取多个excel表多个sheet后映射匹配再分组计算、纵向拼接
大家好,我是飞奔的蜗牛ing。一、前言前几天在一个客户给到一单数据处理的 问题,需求是这样的:1.表“aa2020”中2020年数据需要按季度分成四个表。(1-3月、4-6月、7-9月、10-12月)2.表“2020年一季度”代表2020年一季度客户所对应的管理档位,需要把表中的档位导入附表“aa2
IT共享之家
0