kaggle House Pricesをやってみる(概要とデータの確認)

住宅の価格予測コンペ。
そこそこ難易度が上がる。


タイタニック生存予測
https://trueman-developer.blogspot.com/2019/07/keras.html

手書き画像認識
https://trueman-developer.blogspot.com/2019/07/kaggle-digit-recognizer-keras.html




概要



csvで提供される様々な情報から住宅の価格を予測する。
初心者向けだが結構なボリューム。

https://www.kaggle.com/c/house-prices-advanced-regression-techniques/overview


データについて



タイタニックと比べて非常に説明変数が多い。79項目(+価格1項目)ある。
https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data


ざっと見た感じどの項目も値段に影響しそうな気はする。

data_description
にデータについての説明が書いてある。

SalePrice - 施設の売却価格(ドル)。これは予測しようとしているターゲット変数です。
数値項目。
trainにあってtestにない。
今回はこれを予測する。

MSSubClass:建物クラス

20 1階建て1946年以降すべてのスタイル
30 1階建て1945年&オールド
40 1階建て W / FINISHED ATTIC ALL AGES
45 1-1/2 STORY - UNFINISHED ALL AGES
50 1-1/2 STORY FINISHED ALL AGES
60 2階建て1946年以降
70 2階建て1945年&オールド
75 2-1/2 STORY ALL AGES
80 分割またはマルチレベル
85 SPLIT FOYER
90 DUPLEX(2棟戸建て) - ALL STYLES AND AGES
120 1階建てPUD(計画的一体開発) - 1946年以降
150 1-1/2 STORY PUD(計画的一体開発) - ALL AGE
160 2階建てPUD(計画的一体開発) - 1946年以降
180 PUD(計画的一体開発) - マルチレベル - INCL SPLIT LEV / FOYER
190 2 FAMILY CONVERSION - ALL STYLES AND AGES

業界用語が並んでいる。
nSTORYはn階てのことだと思うが1-1/2 STORYがわからない。


MSZoning:一般的なゾーニング分類
A 農業
C コマーシャル
FVフローティングビレッジレジデンシャル
I 産業用
H 住宅用高密度
L 住宅低密度
P レジデンシャル低密度公園
M 住宅中密度

よくわからないがとりあえずそういう分類があるらしい。


LotFrontage:不動産に接続されている通りの直線フィート
数値。

LotArea:ロットサイズ(平方フィート)
数値。

Street:道路アクセスの種類
Grvl 砂利
Pave 舗装道路

Alley:路地アクセスの種類
Grvl 砂利
Pave 舗装道路
NA アクセス方法がない

道路と路地の違いがわからない

LotShape:資産の一般的な形状
Reg レギュラー
IR1 やや不規則
IR2 中程度に不規則
IR3 イレギュラー

価値的には
Reg > IR1 > IR2 > IR3
になる?

LandContour:物件の平坦度
Lvl 平坦/水平
Bnk Banked - Quick and significant rise from street grade to building
HLS Hillside - 左右に大きな傾斜
Low 窪み、沈下

Bnkがイマイチわからないがそれぞれ状態の程度を示すものではないようだ。


Utilities:利用可能なユーティリティの種類

AllPub 電気、ガス、水道 & S
NoSewr 電気、ガス、水道
NoSeWa 電気、ガス
ELO 電気

Sがわからない
電気、ガス、水道のどれかが欠けたらつらい気がするが。
オール電化+水 の組み合わせがないのも気になる。


LotConfig:ロット構成
Inside ロット内
Corner コーナーロット
CulDSac 行き止まり
FR2 2面の間口
FR3 3面の間口

例えばInsideだと片側が道路に面していて、2つの建物に囲まれているらしい。


LandSlope:土地の傾斜
Gtl 緩やかな傾斜
Mod 中程度の傾斜
Sev 急な傾斜

Neighborhood:Ames市域内の物理的な場所
Blmngtn ブルーミントンハイツ
Blueste ブルーステム
BrDale ブライアデール
BrkSide ブルックサイド
ClearCr クリアクリーク
CollgCr カレッジクリーク
Crawfor クロフォード
Edwards エドワーズ
Gilbert ギルバード
IDOTRR アイオワドット and レイルロード(鉄道路線)
MeadowV メドウビレッジ
Mitchel ミッチェル
Names 北エイムス
NoRidge ノースリッジ
NPkVill ノースパークヴィラ
NridgHt ノースリッジハイツ
NWAmes ノースウェストエイムス
OldTown オールドタウン
SWISU アイオワ州立大学の南西
Sawyer ソーヤー
SawyerW ソーヤウェスト
Somerst サマセット
StoneBr ストーンブルック
Timber ティンバーランド
Veenker ヴィーンカー

正直ピンときていないが(地名か方角を示しているのかわからない)かなり重要そうな項目ではある。


Condition1:幹線道路または鉄道への近さ
Artery 幹線道路に隣接
Feedr フィーダーストリートに隣接
Norm 普通
RRNn 南北鉄道の200フィート以内
RRAn 南北鉄道に隣接
PosN 公園、緑地帯など、ポジティブなオフサイト機能に近い
PosA ポジティブオフサイト機能に隣接
RRNe 東西鉄道の200フィート以内
RRAe 東西鉄道に隣接


Condition2:幹線道路または鉄道への近さ(複数ある場合)
Artery 幹線道路に隣接
Feedr フィーダーストリートに隣接
Norm 普通
RRNn 南北鉄道の200フィート以内
RRAn 南北鉄道に隣接
PosN 公園、緑地帯など、ポジティブなオフサイト機能に近い
PosA ポジティブオフサイト機能に隣接
RRNe 東西鉄道の200フィート以内
RRAe 東西鉄道に隣接

どう扱うか決めあぐねている。
Normalがよくわからない。特徴がないということか。
PosN, PosA(オフィスビルなど)とそれ以外とでは微妙に違う気がする。


BldgType:住居の種類
1Fam 一戸建て
2FmCon 2世帯住宅?
Duplx デュプレックスハウス
TwnhsE Townhouse End Unit
TwnhsI Townhouse Inside Unit

HouseStyle:住まいのスタイル
1Story 1階建
1.5Fin One and one-half story: 2nd level finished
1.5Unf One and one-half story: 2nd level unfinished
2Story 2階建
2.5Fin Two and one-half story: 2nd level finished
2.5Unf Two and one-half story: 2nd level unfinished
SFoyer Split Foyer
SLvl Split Level

OverallQual:全体的な素材と仕上げの品質
10 とても良い
...
1 とても悪い

OverallCond:全体的なコンディション評価
10 とても良い
...
1 とても悪い

誰の評価だろうか。出品者が割と適当に付けている古本などの状態のようなものだろうか。

YearBuilt:元の建設日
日付項目。

YearRemodAdd:改造日
日付項目。

RoofStyle:屋根の種類
Flat Flat
Gable Gable
Gambrel Gabrel (Barn)
Hip Hip
Mansard Mansard
Shed Shed


RoofMatl:屋根材
ClyTile 粘土またはタイル
CompShg 標準(複合)シングル
Membran 膜
Metal 金属
Roll ロール
Tar&Grv 砂利とタール
WdShake ウッドシェーク
WdShngl ウッドシングルズ

直訳なので意味合いが異なるかも。


Exterior1st:家の外装
アスファルト、漆喰など17種類に分類されている。


Exterior2nd:家の外装材(複数の素材がある場合)
アスファルト、漆喰など17種類に分類されている。

MasVnrType:石積みのベニヤタイプ
5種類に分類される。

MasVnrArea:石積みのベニヤ面積(平方フィート)
数値。

ExterQual:外装材の品質
5段階で評価される。


ExterCond:外装上の材料の現状
5段階で評価される。
ExterQualとの違いがわからない。


Foundation:基礎、基盤の種類
6種類に分類される。


BsmtQual:地下室の高さ
高さによって6種類に分類される。

BsmtCond:地下室の概況
6種類に分類される。

BsmtExposure:散歩道または庭園レベルの壁
5種類に分類される。


BsmtFinType1:地下室仕上がり面積
6種類に分類される。

BsmtFinSF1:タイプ1仕上げ平方フィート
数値。

BsmtFinType2:地下仕上げ面積率(存在する場合)
6種類に分類される。


BsmtFinSF2:タイプ2仕上げ平方フィート
数値。


BsmtUnfSF:地下1平方フィート
数値。


TotalBsmtSF:地下室の総平方フィート
数値。


Heating:暖房の種類
床暖房など6種類に分類される。


HeatingQC:暖房の品質と状態
5段階で評価される。


CentralAir:セントラルエアコン
中央管理できるか否か


Electrical:電気システム
5種類に分類される。


1stFlrSF:1階平方フィート
数値。



2ndFlrSF:2階平方フィート
数値。



LowQualFinSF:低品質仕上げ平方フィート(全フロア)
数値。



GrLivArea:上階(地面)のリビングエリア平方フィート
数値。



BsmtFullBath:地下フルバスルーム
BsmtHalfBath:地下ハーフバスルーム
FullBath:グレード以上のフルバスルーム
HalfBath:グレード以上のハーフバス
Bedroom:地下室より上の寝室の数
Kitchen:キッチンの数
KitchenQual:キッチンの質
5段階で評価される。



TotRmsAbvGrd:グレード以上の総客室数(バスルームは含まれません)
Functional:家庭用機能性評価
8段階で評価される。


Fireplaces:暖炉の数
数値。

FireplaceQu:暖炉の品質
6種類に分類される。


GarageType:車庫の場所
Garageは全て車庫でいいんだろうか?
7種類に分類される。

GarageYrBlt:車庫が何年に建てられたか
4桁の数値。


GarageFinish:車庫の内部仕上げ
7種類に分類される。


GarageCars:車庫のサイズ
数値。

GarageArea:車庫サイズ(平方フィート)
数値。

GarageQual:車庫品質
6段階で評価される。

GarageCond:車庫状態
6段階で評価される。


PavedDrive:舗装された私道
3種類に分類される。

WoodDeckSF:ウッドデッキ面積(平方フィート)
数値。


OpenPorchSF:オープンポーチ面積(平方フィート)
EnclosedPorch:囲まれたポーチの面積(平方フィート)
数値。


3SsnPorch:3平方フィートの3シーズンポーチ面積
数値。


ScreenPorch:スクリーンポーチの面積(平方フィート)
数値。


PoolArea:プール面積(平方フィート)
数値。


PoolQC:プール品質
5段階で評価される。



Fence:フェンスの品質
5段階で評価される。



MiscFeature:他のカテゴリに含まれていないその他の機能
エレベーター、テニスコートなど。
6種類に分類される。


MiscVal:その他の機能の価値
上記項目の価値。
こっちだけでいいかも。

MoSold:販売月
YrSold:販売年

SaleType:販売の種類
現金、ローンなど。現金が一番安い?
10種類に分類される。

SaleCondition:販売条件
6種類に分類される。



途中まで真面目に見ていたが半ばで力尽きてしまった。明確に分類があるものについては数値に置き換えれば簡単に扱えると思われる。

次はデータの可視化をおこなう。
https://trueman-developer.blogspot.com/2019/08/kaggle-house-prices_8.html

2019年8月6日火曜日