統計第1回-σ(シグマ)とは?
こんにちは、えちけんです。
以前開発や技術の仕事をしていた時は、データをまとめる際に"σ(シグマ)"を算出して、製造条件変更前後で比較をしたりしていました。
しかし、今の会社に来た際、σ(シグマ)を使ってデータをまとめている人が一人もいませんでした。
みんな、統計データと言いながら、平均値と最大値と最小値 までしか算出しておらず、それだけの情報でデータを解釈して判断をしていたのです。
少し衝撃でした。
これでは、データのバラツキを加味した判断が全くできていません。
でも、みんなにσ(シグマ)を算出するように言いましたが、そもそもσ(シグマ)を算出した事が無い人たちにそんな事を言っても、何のために、どうやってσ(シグマ)を使うのかがわかりません。
そして、その時、それを説明しようとしたのですが、僕もうまく説明できませんでした。
僕も誰かに教わったというよりは、先輩達の真似をしてエクセルで算出していただけで、σ(シグマ)の原理については良く分かったいなかったのです。
では、
- σとはなんでしょう?
1.σを算出しないでデータを解釈する危険性
1-1.σ(シグマ)は正しい判断をするための武器
σ(シグマ)を算出しないでも先には進めます。
「じゃあ、σ(シグマ)なんか算出しなくてもいいじゃないか!」
という声もがるかもしれません。
しかし、σ(シグマ)を算出しないと、間違った道に進む可能性があるのです。
つまり、間違った判断をするということです。
σ(シグマ)を算出したら100%正しい道を選択できるわけではありませんが、正しい道を選択する可能性は格段に跳ね上がります。
1-2.間違った判断をする例
以下のような場合を考えてみましょう。
抵抗値ではなくても、2つのロットの違いを比較するというシチュエーションはよくありますね。
さて、まずは各Lotの平均値と最大値と最小値を算出してみましょう。
おやおや?2Lotの平均値と最大値と最小値はまったく同じ値になりました。
この結果だけで判断するとしたら、「2Lot間に抵抗値の差は無し」と判断するでしょう。
少なくとも、平均値と最大値と最小値だけでデータを判断している人達に「2Lot間に抵抗値の差は無し」という結論以外の導く道はありません。
しかし、本当にそうなのでしょうか?
この統計値には欠けているものがあります。
それはデータの”バラツキ”です。
では、どうやってデータのバラツキを表していけばいいのでしょうか。
2.データのばらつきを算出
2-1.分散
データの”バラツキ”なので、それぞれのデータが平均値からどれくらい離れているかを見えるようにしてみようと思います。
赤い線が平均値です。
赤い数字がそれぞれのデータの平均値との差分です。
これを見ると、Lot1とLot2ではそれぞれのデータの平均値との差分に差がありそうですね。
なんとなく、Lot2の方がそれぞれのデータの平均との差分が小さいように感じます。
つまり、”Lot2の方がLot1よりもデータのバラツキは小さいのではないか?”ということが言えそうです。
これを数字でバシッと言いたいところです。
どうしよう、どうしよう・・・。
Lot1とLot2それぞれの平均値との差分のデータの平均を比較すればいいのでは?
計算してみましょう。
🎵計算中🎵
なんと、Lot1とLot2の平均値からの差分の平均値は両方とも”0”になってしまいました・・・。
そうでした。そもそもデータの平均値とは、そうなるように算出した値でした・・・。
では、どうしよう、どうしよう・・・。
Lot1とLot2それぞれの平均値との差分のデータを2乗した値の平均を比較すればいいのでは?
実は、この計算方法で出てきた値は、統計学でいう”分散”という値になります。
えちけんが思いついた訳ではありません・・・💦
計算してみましょう。
なんと、これからはLot1よりもLot2の方が分散が小さい事が明確に分かりました。
つまり、Lot1よりもLot2の方がデータのバラツキが小さいのです。
ん?これで一件落着?
では、σ(シグマ)ってなんでしょう・・・?
2-2.σ(シグマ)
さて先ほど算出した分散の値、単位はなんでしょう?
今は抵抗値のデータを扱っているので、[Ω]だとバラツキの違いにイメージがつきやすいのですが・・・。
分散の算出方法を振り返ってみましょう。
たしか、単位が[Ω]のデータをすべて2乗したような・・・、つまりその時点で単位は[Ω]ではなくて、[Ω2]ですね。
これを[Ω]にするには、分散を値の平方根をとってあげればいいですね。
では計算してみましょう。
これでバラツキの値の単位がデータの単位と同じ[Ω]になりました。
イメージがつきやすいですね。
実はこの値がσ(シグマ)です。
別名、標準偏差です。
3.エクセル関数によるσ(シグマ)の算出
エクセル関数でσ(シグマ)を算出する際は、どの関数を使えば良いのでしょうか?
何種類か似たようなのがありますので注意が必要です。
以下にまとめました。
結論から言うと、STDEVのみ覚えておけば十分です。
ちなみに、“STDEV” はσ(シグマ)の別名である
Standard Deviation(標準偏差)からきてます。
表中の”標本標準偏差”とは、サンプリングデータの標準偏差という事です。
普段仕事等でデータを扱う際は、ほぼサンプリングデータしか扱いません。
例えば、製品AのロットBの抵抗値データを全数取得しました。
ロットBの抵抗値を全部取得したのだから、このデータを全て使えば母標準偏差ではないのか?と思うかもしれません。
これは、製品AがロットBしか存在しなければ正しいです。
しかし、製品AにはロットB以外にもロットCもロットDもあるということであれば、いくらロットBを全数データ取得したところで、サンプリングデータにしかなりません。
ちなみに、STDEVとSTDEV.Sは全く同じです。
以上、σ(シグマ)とは何か?について説明させて頂きました。
明日から、σ(シグマ)をどんどん算出しましょう!