最近公司 Python 后端项目进行重构,整个后端逻辑基本都变更为采用"异步"协程的方式实现。看着满屏幕经过 async await(协程在 Python 中的实现)修饰的代码,我顿时感到一脸懵逼,不知所措。
虽然之前有了解过"协程"是什么东西,但并没有深入探索,于是正好借着这次机会可以好好学习一下。
什么是协程?
简单来说,协程是一种基于线程之上,但又比线程更加轻量级的存在。对于系统内核来说,协程具有不可见的特性,所以这种由 程序员自己写程序来管理 的轻量级线程又常被称作 "用户空间线程"。
协程比多线程好在哪呢?
线程的控制权在操作系统手中,而 协程的控制权完全掌握在用户自己手中,因此利用协程可以减少程序运行时的上下文切换,有效提高程序运行效率。
建立线程时,系统默认分配给线程的 栈 大小是 1 M,而协程更轻量,接近 1 K 。因此可以在相同的内存中开启更多的协程。
由于协程的本质不是多线程而是单线程,所以不需要多线程的锁机制。因为只有一个线程,也不存在同时写变量而引起的冲突。在协程中控制共享资源不需要加锁,只需要判断状态即可。所以协程的执行效率比多线程高很多,同时也有效避免了多线程中的竞争关系。
协程适用场景
协程适用于被阻塞的,且需要大量并发的场景。
协程不适用场景
协程不适用于存在大量计算的场景(因为协程的本质是单线程来回切换),如果遇到这种情况,还是应该使用其他手段去解决。
初探异步框架 httpx
至此我们对 "协程" 应该有了个大概的了解,但故事说到这里,相信有朋友还是满脸疑问:"协程" 对于接口测试有什么帮助呢?不要着急,答案就在下面。
相信用过 Python 做接口测试的朋友都对 requests 库不陌生。requests 中实现的 http 请求是同步请求,但其实基于 http 请求 IO 阻塞的特性,非常适合用协程来实现 "异步" http 请求从而提升测试效率。
相信早就有人注意到了这点,于是在 Github 经过了一番探索后,果不其然,最终寻找到了支持协程 "异步" 调用 http 的开源库: httpx
什么是 httpx
httpx 是一个几乎继承了所有 requests 的特性并且支持 "异步" http 请求的开源库。简单来说,可以认为 httpx 是强化版 requests。
下面大家可以跟着我一起见识一下 httpx 的强大
安装
httpx 的安装非常简单,在 Python 3.6 以上的环境执行
pip install httpx
最佳实践
俗话说得好,效率决定成败。我分别使用了 httpx 异步 和 同步 的方式对批量 http 请求进行了耗时比较,来一起看看结果吧~
首先来看看同步 http 请求的耗时表现:
import asyncio
import httpx
import threading
import time
def sync_main(url, sign):
response = httpx.get(url).status_code
print(f'sync_main: {threading.current_thread()}: {sign}: {response}')
sync_start = time.time()
[sync_main(url='http://www.baidu.com', sign=i) for i in range(200)]
sync_end = time.time()
print(sync_end - sync_start)
代码比较简单,可以看到在 sync_main 中则实现了同步 http 访问百度 200 次。
运行后输出如下(截取了部分关键输出...):
sync_main: <_MainThread(MainThread, started 4471512512)>: 192: 200sync_main: <_MainThread(MainThread, started 4471512512)>: 193: 200sync_main: <_MainThread(MainThread, started 4471512512)>: 194: 200sync_main: <_MainThread(MainThread, started 4471512512)>: 195: 200sync_main: <_MainThread(MainThread, started 4471512512)>: 196: 200sync_main: <_MainThread(MainThread, started 4471512512)>: 197: 200sync_main: <_MainThread(MainThread, started 4471512512)>: 198: 200sync_main: <_MainThread(MainThread, started 4471512512)>: 199: 20016.56578803062439
可以看到在上面的输出中, 主线程没有进行切换(因为本来就是单线程啊喂!)请求按照顺序执行(因为是同步请求)。
程序运行共耗时 16.6 秒
下面我们试试 "异步" http 请求:
import asyncio
import httpx
import threading
import time
client = httpx.AsyncClient()
async def async_main(url, sign):
response = await client.get(url)
status_code = response.status_code
print(f'async_main: {threading.current_thread()}: {sign}:{status_code}')
loop = asyncio.get_event_loop()
tasks = [async_main(url='http://www.baidu.com', sign=i) for i in range(200)]
async_start = time.time()
loop.run_until_complete(asyncio.wait(tasks))
async_end = time.time()
loop.close()
print(async_end - async_start)
上述代码在 async_main 中用 async await 关键字实现了"异步" http,通过 asyncio ( 异步 io 库请求百度首页 200 次并打印出了耗时。
运行代码后可以看到如下输出(截取了部分关键输出...)
async_main: <_MainThread(MainThread, started 4471512512)>: 56: 200async_main: <_MainThread(MainThread, started 4471512512)>: 99: 200async_main: <_MainThread(MainThread, started 4471512512)>: 67: 200async_main: <_MainThread(MainThread, started 4471512512)>: 93: 200async_main: <_MainThread(MainThread, started 4471512512)>: 125: 200async_main: <_MainThread(MainThread, started 4471512512)>: 193: 200async_main: <_MainThread(MainThread, started 4471512512)>: 100: 2004.518340110778809
可以看到顺序虽然是乱的(56,99,67...) (这是因为程序在协程间不停切换) 但是主线程并没有切换 (协程本质还是单线程 )。
程序共耗时 4.5 秒
比起同步请求耗时的 16.6 秒 缩短了接近 73 %!
俗话说得好,一步快,步步快。在耗时方面,"异步" http 确实比同步 http 快了很多。当然,"协程" 不仅仅能在请求效率方面赋能接口测试, 掌握 "协程"后,相信小伙伴们的技术水平也能提升一个台阶,从而设计出更优秀的测试框架。
你好,我是 Emily
数据预处理常用的处理步骤,包括找出异常值、处理缺失值、过滤不合适值、去掉重复行、分箱、分组、排名、category转数值等,下面使用 pandas 解决这些最常见的预处理任务。
找出异常值常用两种方法:
标准差法:异常值平均值上下1.96个标准差区间以外的值 分位数法:小于 1/4分位数减去 1/4和3/4分位数差的1.5倍,大于3/4减去 1/4和3/4分位数差的1.5倍,都为异常值
技能1 :标准差法
import pandas as pd
df = pd.DataFrame({'a':[1,3,np.nan],'b':[4,np.nan,np.nan]})
# 异常值平均值上下1.96个标准差区间以外的值
meangrade = df['a'].mean()
stdgrade = df['a'].std()
toprange = meangrade + stdgrade * 1.96
botrange = meangrade - stdgrade * 1.96
# 过滤区间外的值
copydf = df
copydf = copydf.drop(copydf[copydf['a']
> toprange].index)
copydf = copydf.drop(copydf[copydf['a']
< botrange].index)
copydf
技能2:分位数法:
q1 = df['a'].quantile(.25)
q3 = df['a'].quantile(.75)
iqr = q3-q1
toprange = q3 + iqr * 1.5
botrange = q1 - iqr * 1.5
copydf = df
copydf = copydf.drop(copydf[copydf['a']
> toprange].index)
copydf = copydf.drop(copydf[copydf['a']
< botrange].index)
copydf
技能3:处理空值
np.nan 是 pandas 中常见空值,使用 dropna 过滤空值,axis 0 表示按照行,1 表示按列,how 默认为 any ,意思是只要有一个 nan 就过滤某行或某列,all 所有都为 nan
# axis 0 表示按照行,all 此行所有值都为 nan
df.dropna(axis=0, how='all')
技能4:充填空值
空值一般使用某个统计值填充,如平均数、众数、中位数等,使用函数 fillna:
# 使用a列平均数填充列的空值,inplace true表示就地填充
df["a"].fillna(df["a"].mean(), inplace=True)
技能5:修复不合适值
假如某门课最高分100,如果出现 -2, 120 这样的值,显然不合理,使用布尔类型的Series对象修改数值:
df.loc[(df['a'] < -2,'a')] = 0
df.loc[(df['a'] >= 100,'a')] = 100
技能6:过滤重复值
过滤某列重复值,使用 drop_duplicated 方法,第一个参数为列名,keep关键字等于last:最后一次出现此值行:
df.drop_duplicates(['Names'], keep='last')
技能7:apply 元素级:去掉特殊字符
某列单元格含有特殊字符,如标点符号,使用元素级操作方法 apply 干掉它们:
import string
exclude = set(string.punctuation)
def remove_punctuation(x):
x = ''.join(ch for ch in x if ch not in exclude)
return x
# 原df
Out[26]:
a b
0 c,d edc.rc
1 3 3
2 d ef 4
# 过滤a列标点
In [27]: df.a = df.a.apply(remove_punctuation)
In [28]: df
Out[28]:
a b
0 cd edc.rc
1 3 3
2 d ef 4
技能8:cut 数据分箱
将百分制分数转为A,B,C,D四个等级,bins 被分为 [0,60,75,90,100],labels 等于['D', 'C', 'B', 'A']:
# 生成20个[0,100]的随机整数
In [30]: a = np.random.randint(1,100,20)
In [31]: a
Out[31]:
array([48, 22, 46, 84, 13, 52, 36, 35, 27, 99, 31, 37, 15, 31, 5, 46, 98,99, 60, 43])
# cut分箱
In [33]: pd.cut(a, [0,60,75,90,100], labels = ['D', 'C', 'B', 'A'])
Out[33]:
[D, D, D, B, D, ..., D, A, A, D, D]
Length: 20
Categories (4, object): [D < C < B < A]
技能9:rank 排名
rank 方法,生成数值排名,ascending 为False,分值越大,排名越靠前:
In [36]: df = pd.DataFrame({'a':[46, 98,99, 60, 43]} ))
In [53]: df['a'].rank(ascending=False)
Out[53]:
0 4.0
1 2.0
2 1.0
3 3.0
4 5.0
技能10:category列转数值
某列取值只可能为有限个枚举值,往往需要转为数值,使用get_dummies,或自己定义函数:
pd.get_dummies(df['a'])
自定义函数,结合 apply:
def c2n(x):
if x=='A':
return 95
if x=='B':
return 80
df['a'].apply(c2n)
以上结合数据预处理的十个小任务,分别找到对应pandas中的实现。
精选文章
系列视频|Python网络爬虫与文本数据分析 语法最简单的微博通用爬虫weibo_crawler hiResearch 定义自己的科研首页 大邓github汇总, 觉得有用记得star multistop ~ 多语言停用词库 Jaal 库 轻松绘制动态社交网络关系图 来自kaggle最佳数据分析实践 B站视频 | Python自动化办公 SciencePlots | 科研样式绘图库 使用streamlit上线中文文本分析网站 bsite库 | 采集B站视频信息、评论数据 texthero包 | 支持dataframe的文本分析包 爬虫实战 | 采集&可视化知乎问题的回答 reticulate包 | 在Rmarkdown中调用Python代码 plydata库 | 数据操作管道操作符>> plotnine: Python版的ggplot2作图库 读完本文你就了解什么是文本分析 文本分析在经管领域中的应用概述 综述:文本分析在市场营销研究中的应用 plotnine: Python版的ggplot2作图库 Wow~70G上市公司定期报告数据集 漂亮~pandas可以无缝衔接Bokeh YelpDaset: 酒店管理类数据集10+G
“分享”和“在看”是更好的支持