統計検定の問題を解く

最近はニューラルネットワークの改良版アルゴリズムであるカプセルネットワークが発表されたり、ソフトバンクの自動運転車が走ったりとますます人工知能業界が盛り上がっていますね。

この記事でも紹介されていますが、人工知能のベースは統計学のようです。

統計解析手法と機械学習手法を数学的に記述するやり方は、細かい慣例などの違いこそあれ「基本的に全く同じ」というわけです

記事中で、

アメリカの数学者アーサー・ベンジャミンはTEDトークなどの場で、「高校までの数学教育では微積分などより統計学を教えるべきである」と主張しています。

ともあるように今後ますます統計学という学問の理解が大事になって行くように思います。

また、How Google Worksでも同様に統計学は学んでおいて損はない学問であると書いてあった気がします。

「How Google works」を読んで | albatrus.com

統計学は21世紀を生き抜く武器

いいですね。いいですね統計学。

統計学・データサイエンスをやっていく上で、実践的に使えるようになるためを考えると、実際に問題で練習してみるのが良い気がしました。

統計検定という統計の資格試験では、過去問が公開されています。

今回は、試験の4級(2017年6月)の過去問をやってみました。

統計検定4級

統計検定4級の内容は以下の通りです。

基本的なグラフ(棒グラフ・折れ線グラフ・円グラフなど)の見方・読み方 データの種類 度数分布表 ヒストグラム(柱状グラフ) 代表値(平均値・中央値・最頻値) 分布の散らばりの尺度(範囲) クロス集計表(2 次元の度数分布表:行比率,列比率) 時系列データの基本的な見方(指数・増減率) 確率の基礎

結果的にケアレスミスなども含めて、26/30(≒ 86%)でした。

統計検定4級は言葉の概念を問われているようなものが多く、度数や相対度数、ヒストグラムの階級値などを知っているかどうかで点数が変わってきそうです。(なんとなく予想はできそうだけど)

復習

ヒストグラムからの平均値・中央値・最頻値

やっている途中で迷ったのは、ヒストグラムからの平均値の導出というのが、階級値を元にしていることです。

つまり、Σ階級値×相対度数=平均値・・・① という式です。

ヒストグラムの作り方を忘れてしまっており、①の値が生データの平均値と一致するのかぐるぐると考え出してしまっていました。

完全独習 統計学入門に寄れば、

度数分布表というのは、(中略)、生データの中の情報の一部を捨ててしまっています。

ということでした。

ヒストグラムの作り上、ヒストグラムから生データなしで本当の平均値を導出することはできなさそうですね。

中央値・最頻値も恐らくそうでしょう。

メモ

円グラフについて

円グラフは相対度数をわかりやすくしただけのものと考えるとしっくりきそう。

まとめ

最初は計算機使っていいのわからずに手計算していましたが、統計検定は基本的な計算機の使用はOKのようです。

次は3級に挑戦したいです。