数字と言語


Posted on 5月 31st, by admin in column

私たちが業務で使っている言語「SAS」は、数字を取り扱うことが多いため、数学的な知識や考え方が業務の中で要求されることが、多々あります。今回はそれについてちょっとしたお話をしようと思います。

 

ニュースや新聞記事などを見ていると、「平均」という言葉をよく見かけます。「平均」とは、「分布の位置を示す値で、データの代表値の1つ」のことであり、[データの総和÷データ数]で求めることが出来ます。

 

以下は、2012年度のプロ野球セ・リーグにおける、捕手の球団別の年棒平均になります。

チーム名 年棒
巨人 8211.25
中日 3118.89
ヤクルト 2624.29
広島 2064.29
阪神 1715.56
横浜 1005.00

(単位:万円)

「巨人」チームの値が突出しています。この結果だけ見ると、「巨人の選手は皆、高給取りだなあ」と思えてしまいます。

 

次に、各チームの1番年棒の高い選手を除いた場合における、平均を出してみます。

チーム名 年棒
巨人 1241.43
中日 1133.75
ヤクルト 1228.33
広島 1075.00
阪神 1305.00
横浜 577.14

 

チーム間での差がほとんどなくなってしまいました。

これはどういうことかというと、「平均はデータを合計し平らにしたモノの為、データ中に非常に大きい(または小さい)値があれば、結果はそれに引きずられてしまう」という性質があるからです。

「巨人」選手の年棒の分布をグラフで表示すると、以下のようになっています。

top_titleimg03

このケースでは、「チーム内に、非常に年棒の高い選手がいる為、結果として平均値がそれに引きずられるような形で、高い値が出ている」ということになります。

 

こういったことが分かった上で、ニュース等を見ると、新たな発見ができるかと思います。

 



システムサービス本部
プロフェッショナルサービス部 第四課
長山 巌(ナガヤマ イワオ)