↑ 关注 + 星标 ,每天学Python新技能
后台回复【大礼包】送你Python自学大礼包
↑ 关注 + 星标 ,每天学Python新技能 后台回复【大礼包】送你Python自学大礼包
广州土地市场分析
获取土地数据
def main():
for page in range(1,46): #这里设置页数
url = 'https://www.tudinet.com/market-213-0-0-0/list-o1ctime-pg{}.html'.format(page)
print(url)
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36',
}
response = requests.request("GET", url, headers = headers)
#print(response.status_code)
if response.status_code == 200:
re = response.content.decode('utf-8')
print("正在提取第" + str(page) + "页")
time.sleep(random.uniform(1,2))
print("-" * 80)
# print(re)
parse = etree.HTML(re) #解析网页
items = parse.xpath('.//div[@class="land-l-cont"]/dl')
parse_page(items)
if len(items) < 10:
print('获取完成')
break
if __name__ == '__main__':
time.sleep(random.uniform(1,2))
main()
分析土地数据
土地成交状态
土地成交面积
土地成交结构
土地成交区域
广州房产市场分析
获取二手房数据
def main():
#增城a080;番禺a078;南沙a084;花都a0639;白云a076;海珠a074;越秀a072;荔湾a071;天河a073;从化a079;黄埔a075
district_list = ['a084', 'a078','a080', 'a0639','a076', 'a074','a072', 'a071','a073', 'a079','a075'] #地区
for district in district_list:
for page in range(1,101): #这里设置页数
url = 'https://gz.esf.fang.com/chengjiao-{0}/i3{1}/'.format(district, page)
print(url)
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36',
}
response = requests.request("GET", url, headers = headers)
if response.status_code == 200:
re = response.content.decode('utf-8')
print("正在提取" + district +'第' + str(page) + "页")
time.sleep(random.uniform(1,2))
print("-" * 80)
# print(re)
parse = etree.HTML(re) # 解析网页
items = parse.xpath('.//div[@name="div_houselist"]/dl')
parse_page(items)
if len(items) < 30: #遍历完子地区后跳转
print('获取完成')
break
if __name__ == '__main__':
time.sleep(random.uniform(1,2))
main()
代码运行几分钟就提取下22170套广州二手房数据,简单清洗后部分数据展示如下:
分析二手房数据
量价走势
房价分布
楼盘成交TOP20
相关性分析
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns
%matplotlib inline
sns.set_style('white') #设置图形背景样式为白色
df = pd.read_excel("D:\data\地产数据分析\广州二手房.xlsx")
df = df[['室','厅','面积(㎡)','层数','成交单价(元/㎡)']] #选择需要的列
df.rename(columns={'室': 'room', '厅': 'hall', '面积(㎡)': 'area', '层数': 'floor', '成交单价(元/㎡)': 'price'}, inplace=True)
fig,axes=plt.subplots(1,2,figsize=(12,5))
sns.regplot(x= 'room',y='price',data=df,color='r',marker='+',ax=axes[0])
sns.regplot(x='hall',y='price',data=df,color='g',marker='*',ax=axes[1])
广州房地产市场小节
推荐阅读
扫码回复「大礼包」后获取大礼
新人福利
送大家一份Python学习大礼包,从Python基础,爬虫,数据分析Web开发等全套资料,吃透资料,
这些资料都是视频,新人学起来非常友好。
扫码加微信后备注「Python新手」方便我给你发送资料