APP下载

基于Tableau的北京市房屋租赁市场现状分析

2019-11-07徐勤亚楚士杰

无线互联科技 2019年15期
关键词:爬虫可视化

徐勤亚 楚士杰

摘   要:随着经济的日益发展,房地产市场价格持续上涨、居高不下,较大的购房压力促使我国房屋租赁市场快速发展。文章基于Python爬虫技术对链家房产服务平台网站的北京市所有租房信息进行数据获取,并结合商业智能软件Tableau进行数据分析,通过树状图、气泡图、条形图和甘特图等,从不同方面对数据进行多维度处理与展示,探究北京市房屋租赁发展现状,为相关研究提供参考。

关键词:Tableau;爬虫;Python;可视化

随着经济的发展,房地产市场价格呈现持续上涨、居高不下的态势,较大的购房压力使我国房屋租赁市场产生庞大的需求,北京链家房地产经纪有限公司是一个集房产交易服务、资产管理服务于一体的价值链房产服务平台,主营业务包括二手房交易、新房交易、租赁等。本文通过编写Python爬虫程序爬取链家网站北京市租房信息,通过商业智能软件Tableau对数据结构进行可视化分析,探究北京市各地区房屋租赁现状,为相关学者的研究提供参考。

1    数据获取

对于房租信息的获取主要使用Python的re模块和requests HTTP库。用浏览器登录到链家网站页面,查看页面的HTML主体数据,分析页面结构,利用正则表达式提取统一资源定位符(Uniform Resource Locator,URL),即可对数据进行采集[1]。关键代码如下:

本文主要爬取北京市各小区的租房信息,爬取字段包括:“小区名称”“地区”“面积”“户型”和“价格”,最终获得3 000条数据。

2    可视化分析

Tableau是用于数据可视化分析的商业智能软件。用户可以通过图形和图表的形式描绘数据的趋势、变化和密度等[2]。同时,Tableau还允许数据混合和实时协作,并可以连接到文件,使用关系数据源和大数据源来获取和处理数据,是目前企业、学术研究人员最常用的视觉数据分析工具之一[3]。因此,本文选择Tableau对北京市租房信息表进行可视化分析。

数据主要包括北京市13个地区2 369个不同小区的房屋租赁信息,首先,对户型进行不同计数处理,使用颜色深浅表示户型数量的多少,生成树状图可以发现,1室2厅1卫是最受欢迎的户型,大多数需求集中于1室或2室,3室2厅3卫关注度最少,分析原因可知,可能与我国家庭人员结构有关。

生成的堆叠图可以直观发现,北京市小区房租价格主要集中在3 000元~4 500元区间内,与其他城市相比,北京市的租房价格较高、压力较大[4-6]。

通过对不同地区进行划分,使用不同计数对各地区对外租赁房屋的小区进行计数,结合所生成的气泡,如图1所示,可以发现,朝阳区、海淀区、丰台区是租房小区数量最多的3个地区,分析原因得出,这可能与地区的经济发展有关,朝阳区、海淀区和丰台区是目前北京市发展较快、潜力较大的3个地区,人员相对密集。亦庄开发区、门头沟和房山地区小区数量最少,这可能与其所处地理位置有关。

对不同地区的小区房屋租赁价格进行度量,使用平均值进行比较,从生成的条形图可以发现,海淀区、西城区、朝阳区和东城区房屋均价最高,门头沟和房山地区均价最低,且与最高值相差3 000元左右,差别较大[7-10]。北京市各地区房屋均价如图2所示。通过Tableau将字段价格放入筛选器进行筛选,得出房租价格在5 000元以上的地区和户型,生成甘特图可以发现,朝阳区月租金5 000元以上的房屋几乎覆盖所有房型,可见整体房租较其他地区偏高[11-12]。

4    结语

本文通过Python爬虫程序爬取链家网站北京市所有租房信息,并使用Tableau进行可视化分析,结合分析结果可以发现,目前在北京市内,1室2厅1卫是分布最多的户型,朝阳区是租房小区数量最多的地区,同时,其整体均价相较其他城区较高,在目前房屋租赁市场中,月租金5 000元以上的房屋几乎覆盖所有房型,各个城区之间的月平均租金极差较大。整体来看,北京市房屋租金较国内其他城市较高,租房人员压力较大,需进行合理化调整与改善。

[参考文献]

[1]李培.基于Python的网络爬虫与反爬虫技术研究[J].计算机与数字工程,2019(6):1415-1420,1496.

[2]趙景.信息的可视化框架表达与建构实现—以Tableau Desktop为例[J].新媒体研究,2019(8):32-35.

[3]杨月,卢伊.沿海城市房价主要驱动因素分析—以三亚市为例[J].北方经贸,2019(5):53-55.

[4]兰坤,吴琼.基于Tableau和Excel的学生多维大数据分析研究[J].信息与电脑(理论版),2019(8):126-127,136.

[5]刘宝华,牛婷婷,秦洲,等.基于Tableau大数据的隧道技术状况分析[J].公路,2019(3):342-346.

[6]陆树芬.基于Python对网络爬虫系统的设计与实现[J].电脑编程技巧与维护,2019(2):26-27,51.

[7]白玲.基于Tableau工具的医疗数据可视化分析[J].中国医院统计,2018(5):399-401.

[8]黄亮,戴小鹏,王奕.基于Tableau的商业数据可视化分析[J].电脑知识与技术,2018(29):14-15,17.

[9]陈乐.基于Python的网络爬虫技术[J].电子世界,2018(16):163,165.

[10]郭丽蓉.基于Python的网络爬虫程序设计[J].电子技术与软件工程,2017(23):248-249.

[11]安子建.基于Scrapy框架的网络爬虫实现与数据抓取分析[D].吉林:吉林大学,2017.

[12]李俊丽.基于Linux的python多线程爬虫程序设计[J].计算机与数字工程,2015(5):861-863,876.

Abstract:With the development of economy, the price of real estate market keeps rising and staying high, and the pressure of purchasing houses makes the rental market of China develop rapidly. Based on Python crawler technology, this paper acquires all rental information of Beijing Chain Home Real Estate Service Platform website, and combines with commercial intelligence software Tableau carries on the data analysis, through the tree chart, bubble chart, bar chart and Gantt chart to process and display the data from different aspects, explores the current situation of housing rental development in Beijing, and provides reference for related research.

Key words:Tableau; reptiles; Python; visualization

猜你喜欢

爬虫可视化
利用网络爬虫技术验证房地产灰犀牛之说
基于CiteSpace的足三里穴研究可视化分析
基于Power BI的油田注水运行动态分析与可视化展示
基于Python的网络爬虫和反爬虫技术研究
基于CGAL和OpenGL的海底地形三维可视化
“融评”:党媒评论的可视化创新
利用爬虫技术的Geo-Gnutel la VANET流量采集
大数据环境下基于python的网络爬虫技术