読み込み中...
読み込み中...
全国地価要因マップ(GWR)のサンプリングアルゴリズム・投影系・計算コストの実測値を公開
全国45,960点の地価公示地点から、目標サンプル数10,000点を都道府県ごとに配分します。手順は次のとおりです。
※ サンプリング直後の件数は10,011点ですが、駅距離・容積率・前面道路幅員等の 説明変数に欠損があった地点をGWR実行前に除外するため、実際に地図・モデルに使われる件数は8,838点になります(欠損は水増しせず単純除外)。
| 都道府県 | 保有点数 | 抽出点数 | 抽出率 |
|---|---|---|---|
| 北海道 | 2,368 | 213 | 9% |
| 青森県 | 679 | 213 | 31% |
| 岩手県 | 535 | 213 | 40% |
| 宮城県 | 945 | 213 | 23% |
| 秋田県 | 513 | 213 | 42% |
| 山形県 | 453 | 213 | 47% |
| 福島県 | 951 | 213 | 22% |
| 茨城県 | 1,201 | 213 | 18% |
| 栃木県 | 888 | 213 | 24% |
| 群馬県 | 741 | 213 | 29% |
| 埼玉県 | 2,057 | 213 | 10% |
| 千葉県 | 2,071 | 213 | 10% |
| 東京都 | 3,686 | 213 | 6% |
| 神奈川県 | 2,581 | 213 | 8% |
| 新潟県 | 945 | 213 | 23% |
| 富山県 | 447 | 213 | 48% |
| 石川県 | 508 | 213 | 42% |
| 福井県 | 345 | 213 | 62% |
| 山梨県 | 427 | 213 | 50% |
| 長野県 | 721 | 213 | 30% |
| 岐阜県 | 721 | 213 | 30% |
| 静岡県 | 1,254 | 213 | 17% |
| 愛知県 | 2,688 | 213 | 8% |
| 三重県 | 724 | 213 | 29% |
| 滋賀県 | 708 | 213 | 30% |
| 京都府 | 982 | 213 | 22% |
| 大阪府 | 2,283 | 213 | 9% |
| 兵庫県 | 1,815 | 213 | 12% |
| 奈良県 | 644 | 213 | 33% |
| 和歌山県 | 389 | 213 | 55% |
| 鳥取県 | 299 | 213 | 71% |
| 島根県 | 409 | 213 | 52% |
| 岡山県 | 754 | 213 | 28% |
| 広島県 | 1,046 | 213 | 20% |
| 山口県 | 684 | 213 | 31% |
| 徳島県 | 318 | 213 | 67% |
| 香川県 | 348 | 213 | 61% |
| 愛媛県 | 650 | 213 | 33% |
| 高知県 | 376 | 213 | 57% |
| 福岡県 | 1,816 | 213 | 12% |
| 佐賀県 | 349 | 213 | 61% |
| 長崎県 | 695 | 213 | 31% |
| 熊本県 | 719 | 213 | 30% |
| 大分県 | 539 | 213 | 40% |
| 宮崎県 | 518 | 213 | 41% |
| 鹿児島県 | 707 | 213 | 30% |
| 沖縄県 | 463 | 213 | 46% |
| 合計 | 45,960 | 10,011 | 22% |
都市別モデルは各都市に対応する平面直角座標系(福岡=系II/東京23区=系IX/大阪=系VI/名古屋=系VII)を使用しますが、 これは自ゾーンの外側に離れるほど距離の歪みが増すため、全国規模の解析には不向きです。
全国モデルでは、日本の重心付近(北緯36.5度・東経137度)を中心とした中心方位図法(AEQD, Azimuthal Equidistant)を採用しています。 AEQDは中心点からの距離を厳密に保存する図法で、GWRの距離ベースカーネル(近い地点ほど重みを大きくする)が 前提とする「距離の正確さ」と相性が良いためです。
※ この投影系の違いにより、都市別モデルと全国モデルのbeta係数は単位・スケールが厳密には一致しません。単純比較しないでください。
| サンプル数 N | GWR計算時間(モックデータ実測) |
|---|---|
| 2,000 | 2.6秒 |
| 5,000 | 6.8秒 |
| 10,000 | 14.8秒 |
| 15,000 | 41.3秒 |
| 20,000 | 85.5秒 |
| 30,000 | 数分経過しても完了せず(打ち切り) |
ボトルネックはバンド幅選択(golden-section search, AICc基準)側で、N=15,000〜20,000区間でおおよそO(N^2.5)程度の超線形な伸びを示しました。 この実測にもとづき、全国モデルの目標サンプル数は安全に収まる約1万点に設定しています(経験則・要検証。ハードウェア・mgwrのバージョンにより変動しうる)。
| 項目 | 都市別モデル | 全国モデル(本ページ) |
|---|---|---|
| 対象点数 | 各都市の公示点を全数投入 | 都道府県ごとに均等抽出したサンプル(約1万点) |
| モデル数 | 都市ごとに独立した4モデル | 全国で単一の1モデル |
| 投影系 | 平面直角座標系(系II/VI/VII/IX) | AEQD(正距方位図法、日本重心を中心に定義) |
| 都心距離の定義 | 都市の中心駅からの距離 | 最寄りの都道府県庁所在地までの距離 |
| 得意なこと | 都市内の地区差を高解像度で捉える | 全国レベルの地域パターンを俯瞰する |
| 不得意なこと | 都市間でbeta係数を比較できない | サンプリングのため地点網羅性に限界がある |
A. GWRの計算コスト(mgwrライブラリのバンド幅探索)を実測したところ、N=15,000で約41秒、N=20,000で約86秒、N=30,000は数分経過しても完了しませんでした。全国の公示・調査点は数万件規模のため、全点投入は現実的な時間で終わらないリスクがあります。安全に計算が終わる範囲として、都道府県ごとに均等抽出したサンプルで単一モデルを推定しています。
A. 都道府県ごとに保有点数の少ない県は全点採用し(水増しはしません)、多い県は無作為抽出で間引いています。抽出は都道府県ごとに固定シードの乱数で再現可能にしています。ただし、サンプリングである以上、抽出されなかった地点の局所的な特殊事情は反映されません。精密に見たい地域がある場合は都市別モデル(全数投入)をご利用ください。