首页 文章详情

我就想写个爬虫,怎么要学那么多东西?

Python绿色通道 | 292 2021-06-25 21:27 0 0 0
UniSMS (合一短信)

↑ 关注 + 星标 ,每天学Python新技能

后台回复【大礼包】送你Python自学大礼包


州的先生按:爬虫或者说数据采集是一个入门门槛极低,但是进阶门槛极高的技术。多少人被爬虫极低的入门门槛忽悠了进来,然后受尽无穷无尽的“折磨”,然后一步一步陷入深坑,比如下面这位。


一开始,老板给了一个任务,需要从网页上复制几百页的数据到本地。一遍一遍的复制粘贴,贴得我身心憔悴。听说有一种爬虫技术,可以自动采集数据,省去了人肉取数的痛苦。
我一听,「诶,这不错,学了就不用再废这双老手了」。
于是网上一搜索,都说 Python 适合写爬虫,而且简单易学,最适合非计算机专业的普通人了。
那就学起来吧。
于是一本 《简明 Python 教程》 就带我入了门。
学完 Python 之后,就打算用 Python 写爬虫了。他们说,爬虫很简单的,就是一个 HTTP 请求到数据,再把数据解析出来就可以了。
我一看,说起来是很简单的,立马找了 python 的 HTTP 请求库——requests。
这也太简单了吧。
于是我马上写出了我的爬虫的 HTTP 请求代码来。
但是为什么 HTTP 的响应里面没有我看到的那些数据呢?
在网上问了一下大神,他们说你要先看看网页源码是否有你看到的那些数据,很多网站是通过前端请求接口渲染的数据,直接请求网页是不会有数据的。
虽然听得迷迷糊糊的,但还是用大神们教的方法打开网页源代码。
一看,好家伙,果然里面没有我想要的数据。这种情况,直接用requests请求网页是拿不到数据了的。
没辙,按照大神说的,找接口呗。于是按了 F12 打开了浏览器的调试控制台,在一大串看不懂的面板里面一个一个地找。
终于看到了一个和我要复制的数据一模一样的接口了。大神说直接 HTTP 请求它。
照做了,还是不行,响应说请求错误。
继续上网搜索,有人说是要携带 「请求头」,天呐,请求头又是什么鬼?
真是学海无涯呀。
网上一顿搜索,知道怎么配置请求头了,然后请求也成功了,数据也打印出来了,本以为大功告成,正打算点一杯奶茶庆祝。
第二页数据请求失败了。
这次响应说「token无效」。
wocao!token又是什么鬼!
找了一圈发现,是请求头里面的一个参数,它的值是一串很长的参数。据网上所说,这个是使用JS生成,用来验证请求是否合法
听说又要学习另一门编程语言 JavaScript,我退缩了。看看有没有别的方法。
嗯,找到了一个叫做 Selenium 的工具,据说可以模拟浏览器进行操作
这个操作简单多了,简单学习了一下,从浏览器审查元素里面复制数据所在的路径,然后查找定位。
so easy!
虽然速度慢了点,但还是比人肉取数强啊!Python 真香!爬虫真香!
1页,2页,3页,4页,10页,20页,30页……完成工作指日可待!
突然,程序挂了!
一看,浏览器上出现了一个拼图验证码,说我操作过于频繁,需要进行验证码验证。重新启动程序也不行
这可如何是好?
百度大法好,搜一下解决方法。解决方法是有,我人快没了。
一堆没听过的词语又出现了,什么 OpenCV、什么 Keras、什么轨迹、什么计算机视觉。
开始只想采集点数据,然后学了 Python,学了 HTTP请求,学了从浏览器中找接口,为了放弃学习 JavaScript 转而学了 Selenium 浏览器自动化,学了……
不行,我学不动了……



如果你觉得文章还不错,请大家 点赞、分享、留言 下,因为这将是我持续输出更多优质文章的最强动力!


Python自学超级硬核资料


最后送大家一份Python学习大礼包,从Python基础,爬虫,数据分析Web开发等全套资料,吃透资料,你可以扔掉其他资料,这些资料都是视频,学起来非常友好 


Ps:都是视频学习资料,非常适合基础不好或者零基础的同学



推荐阅读

  1. 华为鸿蒙系统,霸榜 GitHub!

  2. 室友用Python创造了一个深度学习框架,当场惊艳面试官

  3. 985 研究生组团诈骗,一个中招就关 App,涉案金额超 1 亿,受害人遍布全国


看完记得关注@Python绿色通道
及时收看更多好文
↓↓↓


🧐分享、点赞、在看,给个三连击呗👇
good-icon 0
favorite-icon 0
收藏
回复数量: 0
    暂无评论~~
    Ctrl+Enter