利用python + pyecharts+Pandas对北上广深等城市进行租房数( 二 )

import matplotlib.pyplot as pltdf.plot.scatter(x='area',y='price')plt.figure()plt.show()
筛选area小于450的作散点图
df1=df[df['area']<450]df1.plot.scatter(x='area',y='price')plt.figure()plt.show()
数据处理需要将网络上庞杂的信息,经过清洗可转变为有价值的信息 。由于网上信息存在很多不规范的地方,数据处理也显得尤为重要 。它也是在数据分析过程中的基本步骤 。经过以上对租房数据的数据库保存信息的数据的重复值、缺失值和异常值等处理,基本可以得到有效的租房数据,这对后面的数据分析有很大的作用 。
数据分析与可视化
经过上一部分对各大热门城市租房信息转变成本课题所需要的数据后,本章将从租金、地理位置和户型等多因素进行租房房价的分析 。
平均价格分布
首先对各个城市的平均月租金价格进行分析,将各个城市的月租金相加求平均值构造器有df[‘price’].mean()聚合函数可以求均值,但求得平均值后,得出北京的月租金为10000元/月,显然不符合实际情况 。原因是大城市租房大多是合租,面积对租金的影响很大 。于是,需要用单价除以面积求出各大城市下每月每平方米的租金来进行比较 。通过以上计算方法可以得出如图6-1所示各大城市每月每平方米的租金 。
图 6 各大城市均价结果图
通过图表类库将以上结果渲染出图表,需要将城市信息与各大城市均值传给Bar类,具体代码如下:
#平均价格分布,data为保存了图6信息的列表
from pyecharts import Barchart=Bar('各大城市排名(元/平方米/月)')#将city作为横坐标data_city=list(map(lambda x:x['city'],data))#将平均每平方米每月的价格作为纵坐标data_aver=list(map(lambda x:x['aver_price'],data))chart.add('',data_city,data_aver,is_convert=False, mark_line=['average'],mark_point=['max','min'],is_random=True,legend_text_size=18,label_text_color=["#004"],is_label_show=True)#xaxis_rotate=270,chart.render('average_price.html')
经过以上处理,可以得到如图7所示的柱状图 。从图中可以看出,17个热门城市的租房均价为每月每平方米49.76元 。然而,十七个城市中只有北京、上海、广州、深圳和杭州五个城市超过了平均线,其中北京、深圳和上海三地是平均线的两倍多 。
图7热门城市平均租房房价柱状图
接下来着重分析这是十七个城市中租房房价排名前十的城市 。可以通过以上的data列表进行排序,然后进行渲染可以得到图8所示结果 。
图8租房房价排名图
代码:
#平均价格分布average.sort(key=lambda data:data['aver_price'],reverse=True)data=http://www.kingceram.com/post/average[0:10]print(average)from pyecharts import Barchart=Bar('租房房价排名(元/平方米/月)')#将city作为横坐标data_city=list(map(lambda x:x['city'],data))#将平均每平方米每月的价格作为纵坐标data_aver=list(map(lambda x:x['aver_price'],data))chart.add('',data_city,data_aver,is_convert=False, mark_line=['average'],mark_point=['min'],legend_text_size=18, label_text_color=["#004"],is_label_show=True,label_color='yellow')#is_random=True,chart.render('average_price1.html')
从图8所示中可以看出租金最贵的前十个城市中,北京、上海和深圳遥遥领先 。与图7所示不同的是广州和杭州在这次排名中低于租金前十名的平均线,北京、上海和深圳抬高了整体租价水平 。
城区价格分布
由上面的数据可以看出,北京、上海、深圳和广州等一线城市的租金领跑全国 。现在,重点对这几个城市的各个城区进行价格分析 。通过的分组和聚合操作可以按各个城市的城区进行分组,然后处理结果,通过树状图的形式展示,可分别得出图9,图10,图11,图12所示的结果 。图中矩形面积越大表示租金越贵 。