天天看點

拓端tecdat|R語言代寫嶺回歸ridge regression分析租房價格報告

住房趨勢

首先,這裡是伯克利價格的一般直方圖。這是基于從伯克利的租金收集委員會收集的資料,從中我可以擷取伯克利目前被占用的9143套較高價的電梯大廈的租賃資訊,并從2014年開始租賃。這是每間客房的價格,平均為較高價的電梯大廈樓數量由于租金管制,我認為每個房間的每棟房租都非常相似。

拓端tecdat|R語言代寫嶺回歸ridge regression分析租房價格報告

正如我們可以清楚地看到的那樣,這是一個标準的正态分布形狀,平均約為1400,标準偏差約為200美元。

但是,我們希望探索價格随時間的關系 ,讓我們看看每個月的直方圖映射到當月啟動的租約數量:

拓端tecdat|R語言代寫嶺回歸ridge regression分析租房價格報告

 然後,結合上述兩幅圖的資訊,我們預計過去兩年價格普遍上漲,5 - 8月價格上漲。

拓端tecdat|R語言代寫嶺回歸ridge regression分析租房價格報告

這正是我們所看到的!5月份開始的租賃價格明顯高于11月份到1月份。而且,租金價格在每年的7月/ 8月達到高峰,這是合理的:購買這些房子的學生迫切希望租住較高價的電梯大廈,并願意為有限的剩餘供應支付額外費用。如果您在多年的同一月份進行比較,我們也可以看到2014年至2016年價格普遍上漲的趨勢。

現在,這給我們提供了整個伯克利市房價上漲的總體思路,我們的大部分資料來自主要是學生住房。

尋找内在價格

現在我們對伯克利的租金定價有了更好的了解,讓我們改變方向,并提出一個更基本的問題:較高價的電梯大廈的内在價值是什麼?

經濟學家說,關于較高價的電梯大廈的所有可用資訊都包含在目前價格中,是以它沒有内在價值:它的價值是人們願意支付的價格(這實際上也是技術股票分析的核心假設)。但是,這個定義現在對我們來說并不是特别有用,是以我提出了另外一個定義。

具有一些任意特征向量的較高價的電梯大廈的内在價值是具有完全相同的特征向量的另一個較高價的電梯大廈将出售的所有其他較高價的電梯大廈的平均值(其中特征代表我們可以測量的一定數量的較高價的電梯大廈),在這裡,功能可以是平方英尺,或浴室的數量等)

但是,這與預測價格的問題完全一樣!如果我們有一套訓練集和一套機器學習模型在這套訓練集上進行訓練,那麼模型預測給定較高價的電梯大廈的價格就是該較高價的電梯大廈的内在價值(如果我們隻關心其特征,那麼該較高價的電梯大廈将花費什麼)。然後,我們可以比較該較高價的電梯大廈的實際價格,并确定相對于其内在價格是高估還是低估。

這就是我所做的。在過去的幾天裡,我挖掘了大約1500個Craigslist清單,解析它們,并使用Ridge回歸模型預測任何新清單的價格。

為什麼嶺回歸?

為什麼嶺回歸? 在10倍交叉驗證測試中,Ridge回歸的準确率約為42%,标準偏差為22%。 

但除此之外,我想保持解釋性。我使用這個模型作為内在價格的度量,而不是價格預測,是以我想要很容易地了解每個特征對最終價格的影響程度,并確定内在價格思想不會被複雜的模型。例如,一個神經網絡使得讨論内在價值變得更加困難,因為它掩蓋了資訊如何組合來創造預測。用于比較的回歸模型是相當透明的:它使用線性代數為每個要素配置設定權重,并且使用向量内積生成每個預測。

特征

在确定價格時最重要的是什麼?

以下是我們模型中每個特征的權重:

('bedrooms', -0.01484452500338929),

('bathrooms', 441.35475406327225),

('square feet', 0.81243297704451789),

('distance_to_campus', -82.126291331406136),

('num_images', 37.305112110230304),

('unique_words', 0.51051340095473563),

('postingDate', 8.1268498554076096)      
拓端tecdat|R語言代寫嶺回歸ridge regression分析租房價格報告

這意味着每個額外的衛生間,例如,增加441美元的釋出價格。每平方英尺增加約80美分的價格,而從校園每增加一英裡的價格減少了82美元。這大部分與我們之前在地圖上看到的一緻。