今天休息在家, 研究一下二手房, 突然想可以用统计的方法研究一下当前二手房价的走势. 互联网上, 有很多数据, 只要会挖掘, 就会发现价值吧.
思路是选取了互联网上北京市四个区(海淀, 朝阳, 昌平, 通州) 的二手房历史市价. 求得每日的均价, 对其进行线性回归, 力图达到预测未来房价的目的.
数据从赶集网的二手房出售页面抓取, 使用Python语言. 抓到本地存储成csv格式的文件. 感谢赶集网, 其数据即丰富又正规, 大大减少了分析的工作量使得整个工作在大半天内完成. 统计分析使用GNU R软件,包括基本的数据读入和绘图(Plot)和简单的线性模型.
好了, 闲话少说, 上数据和图表.

海淀区的线性回归系数
1.5440157415, -0.0008758534
这两个系数构成一个线性方程, 其直观的意义就是:
从采样的起始日期2008年6月20日, 以后的日期t的价格均值为 1.544万 – 0.0008758534 * ( 需要计算的日期 – 2008年6月20日的天数), 那么2009年2月1日的房价均值约为 1.3451万元 = 1.544 – 0.0008758534 * 227.

朝阳区的线性回归系数为
1.3147709213, -0.0005277809

昌平区的线性回归系数
0.965554124, -0.000528159

通州区的线性回归系数
0.7966942687, -0.0006909318
那么我们来预测一下半年后的二手房房价, 半年后, 天数为400.
海淀区: 1.19万元
朝阳区: 1.10万元
昌平区: 0.754万
通州区: 0.54万
一年后呢, 设天数为580
海淀区: 1.03万元
朝阳区: 1.00万元
昌平区: 0.659万
通州区: 0.396万
能看到的是, 海淀区的降速度最大(-0.0008758534) 昌平朝阳的较小. 一年后, 房价能降到相对合理的价格, 不过从个人心理上看, 二手房的房价降价速度还是比较慢
另我不太满意.
当然, 线性的回归毕竟比较粗糙, 真实房价的影响因素也非常复杂, 因此这些结论只能作为参考的说法, 到时候如果和此处的预测不一致, 请别来找我麻烦.
以区为划分, 还是比较粗糙, 本系统还支持对区再划分进行统计和分析, 如海淀区还可以有牡丹园, 上地, 等等. 不过太麻烦了, 这里就不做了.