1.chardet库的安装与介绍
pip install chardet
import chardet
2.chardet库的使用
2.1 chardet.detect()函数
encoding:表示字符编码方式。 confidence:表示可信度。 language:语言。
2.2 使用该函数分别检测gbk、utf-8和日语
str1 = '大家好,我是黄同学'.encode('gbk')
chardet.detect(str1)
chardet.detect(str1)["encoding"]
str2 = '我有一个梦想'.encode('utf-8')
chardet.detect(str2)
chardet.detect(str2)["encoding"]
str3 = 'ありがとう'.encode('euc-jp')
chardet.detect(str3)
chardet.detect(str3)
2.3 如何在“爬虫”中使用chardet库呢?
import chardet
import requests
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
response = requests.get('https://www.baidu.com',headers=headers)
response.encoding = "utf-8"
response.text
import chardet
import requests
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
response = requests.get('https://www.baidu.com',headers=headers)
# 注意下面这行代码,是怎么写的?
response.encoding = chardet.detect(response.content)['encoding']
response.text