なたで日記

いろいろな思ったこと書きますヽ(^▽^ゞ) by natade

交通事故による死亡者数の調査

leave a comment »

交通事故による死亡する人が愛知県がトップです。
私が自動車学校を卒業するときも、交通事故を起こさないように作文を書かされました。
なんで、交通事故が多いのか、県別のデータがいろいろあったので調査してみました。

まず、データを集めます。
事故に関係がありそうなデータに狙いを決めて集めます。
重要なのは県別、最新データであるということです。
中々県別というのは見つかりませんが探しましょう。
人口、車の台数、道路の総延長、面積、高齢者の人数など集められました。
電車の運賃が高いと、車乗る人が多いと思ったのですが、電車の運賃に関するデータはありませんでした。

とりあえず集めたデータは、次元が異なる(人数と面積を比べられない)ので標準化が必要です。
標準化とは分散が1、平均を0にすることです。
サンプル(PDF)

次に、正規化したデータを使用して、死亡順のに降順ソートします。
降順ソート(PDF)
これをみることで、交通事故死亡者数が多い県は、どの項目が大きくなっているか分かります。

より正確に、関係性を調べるため正規化したデータから共分散行列を作成します。
相関係数を作ることで、より統計学的に調べられます。
相関行列(PDF)
これを見ると、相関係数が0.94と最も高いのが乗用車数の数ということが分かります。
つまりこのデータからは、乗用車数が多い県=交通事故の死亡者数が多いと言えます。

改めて、死亡者数の降順ソートを見ると、たしかに乗用車数が関係があることが分かると思います。
ただ、福岡県は乗用車数が少ないのに比べて事故が多いようです。
他の原因があると思います。恐らく人口が多いのが2番目の原因だからでしょう。

もっとたくさんの県別のデータがあればより色々とわかると思います。
重回帰分析を行う場合は、それぞれのデータ同士の相関が大きいため、正確な情報を引き出せないと思います。
一度、主成分分析で調査しKL変換で次元数を減らしたうえで調べる必要があります。

また、実際は相関係数などを調べた場合、その値が妥当かどうか調べる必要があります。
例えば、サンプルの数が少なければ、正当性が小さくなります。
調べた値にあった統計手法を利用して、検定をしましょう。

今回使用したデータを他の人でも調べられるように公開することも必要です。
調査にしたデータ(XLSX)

広告

Written by なたで

2013年8月3日 @ 20:21

カテゴリー: memo

Tagged with , ,

コメントをどうぞ(承認された後に公開されます。メールアドレスの記入は自由ですが、記入した場合でも一般公開されることはありません)

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト / 変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト / 変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト / 変更 )

Google+ フォト

Google+ アカウントを使ってコメントしています。 ログアウト / 変更 )

%s と連携中

%d人のブロガーが「いいね」をつけました。