シンプラル法律事務所
〒530-0047 大阪市北区西天満2丁目6番8号 堂島ビルヂング823号室 【地図】
TEL(06)6363-1860 mail:kawamura@simpral.com
大阪のシンプラル法律事務所(弁護士川村真文)HP−TOP |
真の再生のために(個人再生・多重債務整理・自己破産)用HP−トップ |
論点の整理です(随時増やしていく予定です。)
マンガでわかる統計学 | ||
★第1章 データの種類をたしかめよう! | ||
◆ | 測れないデータ⇒カテゴリーデータ 測れるデータ⇒数量データ |
|
目盛りの感覚が等しい⇒測れるデータ⇒数量データ 英検の級の感覚は等しいとはいえない⇒測れないデータ⇒カテゴリーデータ |
||
数量データ: 気温 体重 発行部数 エアコンで快適と感じる室温 100m走の記録 |
||
カテゴリーデータ: 出身県 柔道の段位 天気 血液型 スポーツ飲料Xに対する評価 |
||
★第2章 データ全体の雰囲気をつかもう! <数量データ編> |
||
◆ | ◆1 度数分布表とヒストグラム | |
階級値=看板の数字 度数=各階に入っているお店の数 |
||
相対度数=各階級に属するデータの個数/全てのデータの個数 | ||
データ全体の雰囲気を直感的につかむために 度数分布表やヒストグラムがある。 |
||
◆ | ◆2 平均 | |
データ全体の雰囲気を「数学的」につかむ方法: 平均、中央値、標準偏差 |
||
◆ | ◆3 中央値 | |
中央値:データを小さい順に並べた際に真ん中にくる値のこと 異様に大きなあるいは小さなデータが存在⇒平均よりも中央値のほうが妥当。 |
||
◆ | ◆4 標準偏差 | |
標準偏差:「散らばりの程度」を表わす。 最小値=0 データの「散らばりの程度」が大きいほど、大きな値に。 |
||
{(個々のデーター平均)^2の合計/データの個数}の√ 標本の標準偏差⇒√の中の分母の「データの個数」を「データの個数ー1」とする。 |
||
◆ | ◆5 度数分布表の「階級」の幅 | |
◆ | ◆6 推計統計学と記述統計学 | |
推計統計学:標本の情報から母集団の状況を推測する学問 | ||
記述統計学:データを整理することによって集団の状況をできるだけ簡潔にそして明確に表すことを目的とした統計学。 対象の集団を母集団とみなす統計学。 |
||
★第3章 データ全体の雰囲気をつかもう! <カテゴリーデータ編> |
||
◆ | ◆1 単純集計表 | |
★第4章 基準値と偏差値 | ||
◆ | ◆1 基準化と基準値 | |
標準偏差が小さい⇒データの「散らばりの程度」が小さい⇒1点の重みが大きい | ||
基準化:平均からの離れ具合やデータの「散らばりの程度」をもとに、点数の価値を検討しやすくするデータ変換。 | ||
基準値=((個々のデータ)ー(平均))/標準偏差 | ||
◆ | ◆2 基準値の特徴 | |
基準値の平均は0 基準値の標準偏差は1 |
||
◆ | ◆3 偏差値 | |
偏差値=基準値×10+50 | ||
★第5章 確率を求めよう! | ||
◆ | ◆1 確率密度関数 | |
ヒストグラムにおける階級の幅を極限まで狭めた曲線の式⇒確率密度関数 | ||
◆ | ◆2 正規分布 | |
f(X)=(1/(2Xの√×Xの標準偏差))e^(ー1/2×((X−Xの平均)/Xの標準偏差)^2) 〜 平均と標準偏差で決まる |
||
◆ | ◆3 標準正規分布 | |
標準正規分布:平均が0で標準偏差が1の正規分布 基準化後の結果分布は標準正規分布 |
||
標準正規分布表:0〜Zまでの部分の面積が記載されたもの。 | ||
(標準正規分布であれ何であれ)確率密度関数のグラフと横軸で囲まれた面積は1 面積=割合=確率 |
||
◆ | ◆4 カイ二乗分布 | |
「自由度」は「傾き」と同様グラフの形状に影響をおよぼす数値。 | ||
標準正規分布表:横軸の目盛りに対応する確率(=面積=割合)が記された表。 カイ二乗分布表:確率(=面積=割合)Pに対応する横軸の目盛りが記された表。 |
||
◆ | ◆5 t分布 | |
Xの確率密度関数が上記のもの⇒「Xは自由度〇〇のt分布にしたがう」 | ||
◆ | ◆6 F分布 | |
Xの確率密度関数が上記のもの⇒「Xは第1自由度が〇〇で第2自由度が××のF分布にしたがう」 | ||
◆ | ◆7 「××分布」とExcel | |
★第6章 2変数の関連を調べよう! | ||
★第7章 独立性の検定をマスターしよう! | ||
★付録 Excelで計算してみよう! | ||
統計学が最強の学問である | ||
★ | ★第1章 なぜ統計学が最強の学問なのか? | |
◆ | ◆1 統計リテラシーのない者がカモられる時代がやってきた | |
◆ | ◆2 | |
◆ | ◆3 | |
◆ | ◆4 | |
★ | ★第2章 サンプリングが情報コストを激減させる | |
◆ | ◆5 | |
◆ | ◆6 | |
◆ | ◆7 | |
★ | ★第3章 誤差と因果関係が統計学のキモである | |
★ | ★第4章 「ランダム化」という最強の武器 | |
★ | ★第5章 ランダム化ができなかったらどうするか? | |
★ | ★第6章 統計課たちの仁義なき戦い | |
★ | ★終章 巨人の肩に立つ方法 | |
統計学(実践編) | |
標準偏差 (Standard Deviation) p77 |
平均値からのズレの二乗の平均の平方根(√) |
標準的な平均値からの偏り | |
標準誤差 (Standard Error) |
平均値の標準誤差=元データの標準偏差/√平均値の計算に用いたデータの件数 |
統計学が最強の学問である(実践編) | |||
★ | ★序章 ビジネスと統計学を繋ぐために | ||
■ | ■1 ビジネスと統計学のギャップはなぜ存在するのか | ||
■ | ■2 「把握」と「予測」、そして「洞察」の統計学 | ||
● | ●統計学は目的別に3つに分けられる | ||
@人間の行動の「因果関係を洞察」する A「現状の把握」 B「今後の予測」 以上の3つの目的のうち、@のみ扱う。 |
|||
Bについて、手法を熟知した投資のプロの収益率が、上場株式をランダムに買うようなサルでもできる投資方法の収益率を上回らない、という実証的データ。 | |||
● | ●「洞察」の統計学はどのように役立つのか | ||
×「この商品がいくつ売れるか」という予測 〇「どのようなプロモーションをすれば商品が売れるか」「どのような商品を作ればヒットするか」という洞察。 〜 購買という求める結果の背後にどのような原因が存在するか、という因果関係を探り当てる。 |
|||
×何歳で亡くなるか 〇どうすればその人がより長く健康に生きられるか 〜 リスクの認知によって不健康な生活習慣という原因を変えられるのではないかという部分こそが重要。 |
|||
ある季節にのみなぜか意外な商品が売れているという分析結果⇒コンピューターや外部の人間では「その季節にこの商品をたくさん仕入れましょう」という程度のアイデア。 but 店舗や商品に関わり続けてきた人間なら、その情報から「ピンとくる」ことがある。 〜 その背後にこうい現状が生じているのではないかという考察、そして利益を生むための新しいアイデアが芽生える。 |
|||
● | ●本書の特徴 | ||
第1章:平均と割合、標準偏差 なぜ平均が「洞察」の統計学で重要になるのか理解 第2章:グループ間で平均値や割合に偶然の誤差ではないレベルの差があるのかどうか、とうい統計的仮説検定の考え方について紹介。 意味のある差か偶然の誤差か。 第3章:ある値が増えれば増えるほど別の値は増える傾向にあるのか、逆に減る傾向にあるのか、といった関連性を分析するための回帰分析。 第4章:因子分析とクラスター分析という手法により、膨大なデータの項目を、うまく少ない項目に変換する方法を学ぶ。 「頻度論」の考え方に基づく。 |
|||
★ | ★第1章 統計学の実践は基本の見直しから始まる・・・「平均」と「割合」の本質 | ||
■ | ■3 「洞察」の統計学に必要な3つの知識 | ||
@平均値や割合など統計指標の本質的な意味の理解 A「データを点ではなく幅で捉える」という考え方 B「何の値を何ごとに集計すべきか」という考え方 |
|||
● | ●「平均値」の本質がわかれば「割合」もわかる | ||
◎ | 平均値と割合は本質的に全く同じ。 | ||
量的変数(年齢や収入、購買金額という数で表される情報)⇒「平均値」の形で集計。 質的変数(性別や職業、商品ジャンルといった数ではなく文字であらわされる情報。大きい小さいではなく質が異なる)⇒「割合」を集計。 5段階で満足度を回答〜 量的変数と考えて平均値を計算すべきか、質的変数と考えて5つの各段階に該当する者の割合を示すべきか? 一種の量的変数と捉えて間違いではない。 |
|||
◎ | 100人に対する調査で60人が男性⇒男性の割合60%。 「男性である度合い」という量的変数。男性⇒1。そうでない⇒0. (1×60+0×40)÷100=0.6(=男性である度合の平均値) |
||
数の形で表現できない質的変数については、それぞれの分類についての1か0という形で表現される「該当する度合い」という量的変数を考え、その平均値を計算しているということ。 | |||
平均値に関する数学的な性質は、ほとんどそのまま割合についてのあてはまる。 | |||
● | ●データの存在する「幅」が重要 | ||
平均年齢が20歳の集団でも、20歳前後の若者ばかりの集団なのか、40歳前後の親と乳児の集団かはわからない。 | |||
⇒ 「おおよそデータはどこからどこまでの範囲に存在しているか」という幅を把握するための方法を生み出した。 |
|||
● | ●「結果」と「原因」を絞り込め! | ||
データ分析を因果関係の洞察、すなわち、最終的にコントロールしたい結果(=アウトカム)とそれに影響を与えうる原因(=説明変数)の候補という観点で捉える。 | |||
説明変数の優先付け: @その因果関係が「当り前すぎる」ものではないこと Aアウトカムへの影響が明らかになったとしてその原因のコントロールが容易であること Bいままでにあまり注目して分析されたことがないこと 〜 因果関係が当たり前ではなくてもコントロール可能であるのならば、「関係しているか、していないかわからない項目」ほど、あえて説明変数として分析してしまったほうが新しい発見に出会えるかもしれない。 |
|||
多くの企業でデータは存在⇒エクスるのピボットテーブルを2、3回操作するだけの手間で説明変数は変えられる⇒いろいろ試して、新しいアイデアを見つける。 | |||
■ | ■4 じつは深い「平均値」 | ||
● | ●「洞察」には中央値よりも平均値を | ||
代表値:データ全体を把握するための値 | |||
中央地:真ん中の順位の値 最頻値:一番頻度の高い値 |
|||
「現状把握」のための統計学では、中央地・最頻値が現状をよく反映した代表値 but 「洞察」のための統計学では中央値や最頻値を気にすることはあまりない。 |
|||
● | ●「代表値」をめぐる数学者たちの奮闘 | ||
測定が完全に正確なものであれば得られたであろう本当の天体の位置を示す「真の値」がどこにあるかを数学的につきつめようとした。 | |||
得られたデータの真の値からのズレが最小となるものが、信頼できる真の推定値。 =中央値。 but 「絶対値の煩雑さ」の問題 vs. 最小二乗法(=絶対値の代わりに二乗を使う)により解決。 ズレの二乗の合計値が最小となるものを「真の値」として推測。 |
|||
● | ●平均値を人間に応用した「近代統計学の父」、あるいは「社会学の祖」 | ||
◎ | 最小二乗法⇒「平均値を用いることが推定の方法として相応しい」 | ||
平均値とは、最小二乗法に基づき、観測値に含まれるズレを最も小さくすると考えられる良い推定値 | |||
◎ | アドルフ・ケトレー:時点や地域が異なっていても読み書きのできない者が全受刑者に閉める割合はほぼ等しい(61%〜62%) 〜 満足な教育を受けたかどうかという、社会的環境の影響。 |
||
意思や多様性を含んだ個々人の状態というのは、天体の測定値のバラつきのようなものであり、その背後にはさまざまな要因によって左右される人間の傾向性が存在している。 その傾向性についての「真の値」を得るためには平均値を使うのが良い。 |
|||
(社会や人間について、)我々は天体を支配する法則と同じように、時間を越えて成り立つさまざまな法則性・・・そこでは人間の意思は完全に消えて神の働きのみが優勢になる・・・を見出すだろう。 | |||
■ | ■5 なぜ、平均値は真実を捉えることができるのか | ||
● | ●「科学の王者」ガウスの貢献 | ||
◎ | 因果関係の洞察という観点で、平均値のほうが中央値よりも関心のあることに対する直得sつ的な答えとなっていることが多い。 ← 因果関係の洞察を行う関心は、多くの場合何らかの結果を示す値の総量を最大化したい、逆に最小化したいということに向けられるが、「何かの要因を変えれば結果の値の総量がどうなるか」ということに対して、中央値はその答えを与えない。 |
||
データの現状把握として適切だろうとなかろうと、仮にその売上増が一部の極端な人間のみに集中していようと、全体として売上がいくら変わるのか、という総量の増減を示すのには平均値のほうが適している(中央値では、総量への影響がどうなるのかは計算できない)。 | |||
◎ | ガウス: 「平均値を使うことが真の値の良い推定方法となる条件とは何か」と考えて、その結果としてガウス分布あるいは正規分布と呼ばれるバラつき方の法則性に辿り着いた。 |
||
データのバラつきが正規分布に従っているのであれば、最小二乗法が最も良い推定方法であり、その結果、平均値が最も良い推定値となる。 | |||
● | ●正規分布とは「ふつうの広がり」のこと | ||
正規分布:normal distribution=ふつうの広がり | |||
● | ●現代統計学を支える「中心極限定理」 | ||
◎ | 中心極限定理: 仮に元のデータが正規分布に従っていなかったとしても、「そのデータの値をいくつか足し合わせたもの」はたいてい正規分布に収束する。 ⇒ それをさらに「足し合わせたデータの件数」で割ったものである平均値も正規分布に収束する。 |
||
元のデータが平均値付近になくてもそれを足し合わせた値は中心(平均値)付近に集まり、そこから左右対称になだからかカーブを描く。 | |||
◎ | 4枚のコインを2セット投げる: 4枚中0枚あるいは4枚中4枚という極端な組み合わせは1パターンだが、4枚中2枚という「真ん中」の組み合わせについては、3パターン(2+0、1+1、0+2)の確率を足したものになる(⇒確率が上がる) |
||
コインを何枚か投げてそのうち何枚が表になるか、という確率は、投げる枚数が多くなると正規分布に収束する。 (2枚のコインを投げた場合の表の枚数の確率より4枚のコインを投げた場合の表の枚数の確率の方が、正規分布に近くなる。) |
|||
足し合わせる元の確率の大小によって補正された真ん中あたりの値が、平均値。 | |||
◎ | 真の値からのズレが正規分布に従う⇒真の値を推定しようとするときは最小二乗法に基づいてデータの平均値を用いることが最良(ガウスの発見)。 | ||
真の値からのズレ方が複数の細かいズレの合計によって生じるものであるなら、それは正規分布に従う。 | |||
データ自体のバラつき方ではあく、データの背後にある真の値に興味⇒平均値を使っておけばよい。 | |||
● | ●統計学を少しかじった人が混乱するところ | ||
新しい広告を見せた顧客と古い広告を見せた顧客の2つのグループ間で、売り上げに違いがあるかどうかを洞察するために売上の平均値を比較: 「現状把握」⇒平均値でなく中央値もあり 「現状把握」でなく「因果関係」を洞察したい⇒平均値でOK (←一方のグループが他方より売り上げが高くなるか低くなるかが問題) |
|||
「元のデータのバラつき方とその代表としての平均値」という考え方と、 「元のデータのバラつき方とは関係ない、平均値自体のバラつき方」 という考え方。 |
|||
データが多い⇒正規分布に収束⇒平均値でOK。 | |||
実際に得られるデータは真の値に対してさまざまなズレが加わったものとなる。 顧客1人ひとりの多様性は、そのズレの原因だが、顧客自体の売上のバラつき方は正規分布らしからぬものでも、その数百人以上のデータから得られた平均値は正規分布に従う。 ⇒ 平均値を活用。 |
|||
■ | ■6 標準偏差が示す「たいていのデータの範囲」 | ||
● | ●現状把握に便利な四分位点 | ||
中央値: データ数が奇数⇒「真ん中の順位の値」 データ数が偶数⇒「真ん中の2つの値の平均値」 |
|||
データの25%/75%が少数⇒データの数を4で割った値を切り上げた順位の値 整数⇒データの数を4で割った順位とその次の順位の値の平均 |
|||
四分位点⇒25%点から75%点の間におよそ半数のデータが該当。 | |||
● | ●データの分散の度合いを表現するから「分散」という | ||
but 四分位点も並べ替えが大変で、数式展開が難しく、総量の差異を計算することが難しい ⇒分散という指標 |
|||
「ズレの二乗の平均値」を使ってバラつきを表現。 | |||
● | ●「分散」を感覚的にわかりやすくしたの「標準偏差」 | ||
イメージがつかめるような指標にするには、分散の「二乗」をなんとかしてやればいい⇒「√をとる」計算。 〜 分散の√を計算して得られた値が標準偏差(SD:Standard Deviation) 〜 「標準的な平均値からの偏り」 |
|||
それぞれのテストの平均点や点数のバラつき方(すなわち標準偏差)がどうであろうが、平均点から標準偏差いくつ分お紀伊あるいは小さい点数なのか、で成績を示すやり方。 | |||
平均点:偏差値50 平均点+SD(標準偏差):偏差値60 平均点ーSD(標準偏差):偏差値40 |
|||
● | ●平均値と標準偏差で現状把握ができるわけ | ||
データ自体が正規分布に従う⇒「平均値ーSD(偏差値40)」から「平均値+SD(偏差値60)」の範囲に、全受験生の約68.3%が該当。 | |||
正規分布に従う⇒データのバラつきが左右対称⇒返済60以上の人数と偏差値40以下の人数は、約15.9%(=(100−68.3)/2)ずつ。 | |||
データのバラつきがどのようなものであり、平均点ー2SD(標準偏差の2倍)〜平均値+2SDまでの範囲に必ず全体の4分の3以上のデータが存在することが証明されている(チェビシェフの不等式)。 | |||
正規分布に従うデータであれば、「4分の3以上」というボリュームはもっと大きくなり、平均値±2SDという範囲に95%のデータが存在。 | |||
⇒ 正規分布らしいバラつきをしていようがしていまいが、「大体平均値±2SDの範囲あたりにデータが存在する」と考えて間違いではない。」 |
|||
● | ●平均値と標準返済を「洞察」に使ってみる | ||
期間中DM送付ありと、DM送付無しの比較 | |||
平均値±2SDの範囲がグループ間で重ならない⇒一方のグループにとっての「だいたいこのあたりにデータが存在するという範囲に他方のグループのデータが存在することは「当り前というわけではない」という状態。 | |||
DMがランダムに送られているなら、DM送付別のグループ間に、DMという要因以外の違いは本来ないはず。 ⇒そこに何かしら無視し難いアウトカムの差が生じているのであれば、DMが原因で売上げと言う結果を左右したのではないかと考えられる。 |
|||
★ | ★第2章 統計学が「最強」であるもう1つの理由・・・標準誤差と仮説検定 | ||
■ | ■7 あわて者とぼんやり者の間にある「最強」という考え方 | ||
「偶然のバラつきで生じたとは考えにくい差」⇒統計学的有意差 | |||
● | ●現実には、そんなに簡単に有意差は見つけられない | ||
グループ間の平均値からお互いに標準偏差2つ分以上離れていれば、データを統計学的に処理しなくても、その違いに気づくことができる。 | |||
⇒標準偏差2つ分よりは小さいが現実的な意味があり、そして統計学上有意な差を、最小限のデータからいかに見つけることができるか、すなわち検出力を大きくできるかがポイント。 | |||
検出力:「何らかの差が存在しているという仮説が正しいときに、きちんと有意差であると言うことができる確率」 | |||
● | ●「あわて者」の過ち、「ぼんやり者」の過ち | ||
「何の差もないのに差があるとしていまう」誤り:αエラー 「本当は差が存在しているのにそれを見逃してしまう」:βエラー |
|||
α:思いついたことはすべて何のデータにも基づかず無責任に主張し続ける⇒間違った仮説を正しいとしてしまう。 β:厳密にはわからないからこれからも慎重に議論しよう⇒何の仮説も主張しないし、仮説を真実行動することもない。 |
|||
● | ●「統計学が最強の学問である」わけ | ||
「あわて者の過ち」の許容範囲を決める。 慣例的には5%。より厳密な意思決定が求められる場合は、1%や0.1%のこともあるし、逆に10%を許容する場合もある。 αエラーを許容する水準:有意水準。 |
|||
その後、与えらた有意水準の範囲内で「ぼんやり者の過ち」を最小化する。 | |||
仮説が正しいと考えられるかどうかを判断するための手法:「検定(統計的仮説検定)」 想定する有意水準において最も検出力が高い検定手法:最強検定・最強力検定 |
|||
あわて者とぼんやり者との間で、そして理論上の正しさと現実的な問題の間で、最善の判断は何かを考えられる学問は統計学しかない。 ⇒ あらゆる学問分野において理論を実証し、あらゆる失敗の許されない現実的な意思決定を支えるために統計学が用いられている。 |
|||
「あわて者の過ち」のリスクを一定に保ちつつ、いかに適切な意思決定ができるかという力を身につけていく。 | |||
■ | ■8 「誤差の範囲」とデータの数の関係 | ||
● | ●統計学的な意味での「誤差」とは | ||
調査対象とする人や物によって値がバラつく。 限られたデータから求められた平均値や割合は、「たまたまある状態を取る者が多かった」という可能性もはらむ。 ⇒無限界の調査を行えば得られるであろう「真の値」と完全に一致するとも限らない。 |
|||
限られたデータから求めた平均値や割合が、「真の値」からどの程度の確率でどの程度ブレたものになりうるかを示す・・・それが統計的な意味での誤差の記述。 | |||
「どの程度ブレたものになりうるか」は、データの件数以外にも元のデータのバラつきの大きさが関係。 | |||
● | ●データのバラつきが大きいほど、平均値のブレは大きくなる | ||
元のデータのバラつきが大きいほど、同じ件数のデータから求めている平均値でもブレが大きくなる。 | |||
● | ●平均値の標準誤差 | ||
標準誤差(SE:Standard Error) | |||
高校生は300万人。4人の回答者からデータを得て平均値を計算。⇒1人が2回以上調査対象とならないとしても、75万個できる。 | |||
75万個の「4人のデータから求めた平均値」の平均値は300万人の高校生全体の平均値と一致。(集団全体から抜き出されたサンプルであるデータの件数(今回の場合4人)のことを専門用語でサンプルサイズと呼ぶ。) あとの問題は、この75万個の平均値について、分散あるいは標準偏差がどうなっているかだが、「4人のデータから求めた平均値」の標準返済のことを標準誤差と呼ぶ。 |
|||
自分の関心のある「真の値」の代表として、限られたデータからそれに近いものを算出する、という行為を行う背後には、必ずいま例として挙げた75万個の平均値のように、膨大な数の「あり得たはずの値」が存在。 | |||
その「あり得たはずの値」の分布における標準偏差が「標準誤差」。 「標準偏差」は、元のデータそのもののバラつきを示す指標。 |
|||
複数のデータから求められた平均値のバラつき(標準誤差)は、必ず元のデータのバラつき(標準偏差)よりも小さいものになる。 求めるのに用いたデータの件数、すなわちサンプルサイズが増えれば増えるほど標準誤差は小さくなる。 |
|||
← (データの件数が多くなればなるほど、元データのうち真の平均値より大きいものだけ、あるいは逆に小さいものだけがサンプルに含まれる確率よりも、真の平均値より大きい値のものと小さい値のものが混在してくる確率の方が大きくなる。⇒データの件数が増えるほど、データから求めた平均値のバラつき(標準誤差)は、元のデータのバラつき(標準偏差)よりも小さくなってくる。) |
|||
平均値の標準誤差=元データの標準偏差/平均値の計算に用いたデータの件数の√(※) | |||
● | ●平均値と標準偏差を使えば「サンプルサイズ設計」ができる | ||
※⇒これまでのデータから求めた平均値と標準偏差を用いて、「次の調査でどれぐらいの標準誤差にするためにどれぐらいのデータの件数(=サンプルサイズ)が必要か」という見積もり(=サンプルサイズ設計)を行うことができる。 | |||
自社の顧客1人あたりの利用単価について、平均4000円で標準偏差が1000円であることがわかっている飲食店のチェーン。 いくつかの候補地域のうちどこの出店するかを考えており、自社店舗の標準価格帯である「飲み会1回あたりの平均予算が最も4000円に近い」地域が有望。 サンプルサイズが4⇒平均値のSE=1000/4の√⇒500円 サンプルサイズが100⇒平均値のSE=1000/100の√⇒100円 サンプルサイズが2500人⇒平均値のSE=1000/2500の√⇒20円 |
|||
データ自体の分布において、平均値±2SDの範囲を指して「だいたいこのあたりにデータが存在する」という説明をしたが、標準誤差においても同じような解釈。 平均値が4000円で標準誤差(SE)が100円⇒平均値±2SEの範囲を考え、「だいたい3800円〜4200円という範囲」と考える。 |
|||
最終的に得られるであろう誤差と、調査にかかる手間や予算を天秤にかけて、必要なデータの数を見積もるのがサンプルサイズ設計。 ⇒ ×とりあえず全数調査 ×とりあえずビッグデータ |
|||
● | ●割合については標準誤差 | ||
割合の標準誤差=(割合×(1-割合)/データの件数)の√ | |||
100件のデータから割合が90%と算出⇒標準誤差=(0.9×0.1÷100)の√⇒0.03(3%) | |||
割合とはある状態を取る(1)か取らない(0)かを示すデータの平均値⇒平均値の標準誤差と同じ。 | |||
「1か0かを示すデータの分散」をシンプルな式で表すと、 データの分散=割合×(1ー割合)⇒標準偏差/データの件数の√と同じ。?? |
|||
「データから得られた平均値±2SE」のことは、平均値の95%信頼区間と呼ぶ。 | |||
■ | ■9 不毛な議論に終止符を打つ仮説検定の考え方 | ||
● | ●あわて者とぼんやり者の議論 | ||
「すべてのカラスは黒い」 「すべての〜は・・・・である」という表現のことを「すべてのものについて称する」という意味で全称性を持っていると表現する。 |
|||
全称性をもった仮説の反証は簡単。 たった1羽黒くないカラスを連れて来れば証明できる。 全称性を証明する側はたいへん。 |
|||
● | ●統計的仮説検定の考え方 | ||
「全称性」を証明することはできないが、確率を導入することで「ほとんどの」を考えられるようにする。 | |||
@「今自分たちが集められるデータの範囲」の中での仮説の妥当性に焦点を当てる。 A自分の主張を完全に覆してしまうような「カラスが黒いかどうかは半々」という仮説について吟味する。 B少し自説に近い仮説(9割の仮説が黒い)についても吟味してみる C損か得かの問題に落とし込む |
|||
● | ●p値と信頼区間の本質的な意味を理解しよう | ||
帰無仮説:自説を完全に覆すような仮説 p値:帰無仮説が成立していると仮定した状態で、実際のデータまたはそれ以上に帰無仮説に反するようなデータが得られる確率 |
|||
今回の場合であれば、「(カラスが黒いか白いかは半々のときに)100回連続で黒いカラスが見つかった」というような観察結果が得られる確率が1兆分の1の1兆分の1より小さいというのが今回の場合のp値。 p値が小さい⇒「その帰無化説はあり得ない」と考える方が自然。 |
|||
分野にもよるが、概ね5%未満、つまり帰無仮説のもとでは20回に1回程度にしか起こらないようなデータが得られたとすれば「あり得ない」と考えるのが慣例。 | |||
◎ | 「完全に台無しにする」仮説以外の帰無仮説についても、どこまでならあり得ない仮説で、どこからは否定しきれない仮説なのか、という区間を示す=信頼区間。 信頼区間が平均値±2SEで表すことができる、というのは計算上たまたまそうであるというだけで、本来の意味としては「あり得ない帰無仮説」と「否定しきれない帰無仮説」の境目がどこからどこまで、という範囲を示すのが、信頼区間の意味。 |
||
「97.0%のカラスが黒い」という仮説のもとでは偶然100羽連続して黒いカラスに出会う確率は4.8% 「97.1%のカラスが黒い」という仮説のもとでは、この仮説が5.3%ととなる。 ⇒ p値が5%を下回るかどうか、というところで仮説を判断するのだとすれば「97.1%のカラスが黒い」という仮説から「100%のカラスが黒い」というところまでの仮説はすべて否定しきれない。 ⇒ p値、信頼区間を使って、「いまデータから得られる範囲で97.1%のカラスが黒い〜100%のカラスが黒い」と考えて問題さそうだという結論。 |
|||
■ | ■10 Z検定であわて者を諌めろ | ||
あわて者のAさんが主張した「スポーツをすれば出世する」という仮説。 | |||
まず、その仮説の言及する範囲を、実際のデータで検証可能なところまで具体的に定めること。 | |||
データを収集する範囲や言葉の定義はスポーツのルールのようなものであり、あらかじめきちんと決まっていなければ議論に白黒つけることができない。 | |||
● | ●あわて者はクロス集計をどのように誤解するか | ||
手近に使えそうなデータがあるなら、とりあえずそれを用いることを前提に、「まずはこの範囲、この定義で仮説を検証してみたいのですが、それでも大丈夫ですか?」と提案し、合意を取り付けるやり方もある。 | |||
体育会出身者(300人):出世率21% その他出身者(200人):出世率18.5% |
|||
体育会出身者の出世率の標準誤差(SE)=0.21×(1−0.21)/300の√⇒2.35% ⇒ 彼らの出世率は16.3%(=21%−2×2.35%)〜25.7%(=21%+2×2.35%)と考えてほぼ間違いない。 p値が5%を下回るかどうかという有意水準で仮説検定を行うとして、出世率が16.3%〜25.7%であるという仮説は否定しきれない。 〜 95%信頼区間。 |
|||
その他出身者の18.5%という出世率の標準誤差: =0.185×(1−0.185)/200の√⇒2.75% (人数が少ない分少し大きくなる) 〜 ±2SEの95%信頼区間: 彼らの出世率は「有意水準5%で、出世率が13.0%(=18.5%−2×2.75%)〜出世率が24.0%(=18.5%+2×2.75%)という仮説は否定しきれない」 |
|||
⇒一見しただけは両社の割合の差が偶然のバラつきによるものなのかどうか、判断が難しい。 | |||
● | ●「割合の差」の標準誤差も求められる | ||
何らかのバラツキを持ったデータから何かの値を算出する限り、必ずそこには標準誤差が存在している。 | |||
● | ●「割合」と「平均値」の差の意味を判断するZ検定 | ||
@割合とはある状態を取る(1)か取らない(0)かの二値変数の平均値⇒二値変数の分散は割合×(1−割合)で求められる。 | |||
A「分散の加法性」という性質: 「体育会出身者の出世率とその他出身者の出世率を足したもの」の分散は、「体育会出身者の出世率」の分散と、「その他出身者のの出世率」の分散を足すことで求められる。 |
|||
● | ●「平均値の差」もZ検定で考えられる | ||
● | ●医学やビジネスでの仮説検定の使い方 | ||
仮説検定のp値や信頼区間は「自分があわて者である」かどうかを教えてくれる。 それをどう活かすかということろにこそ、経験と勘を活かせばいい。 |
|||
■ | ■11 少ないデータのためのt検定のフィッシャーの正確検定 | ||
● | ●サラリーマン統計家が編み出したt検定 | ||
数百〜数千件以上というデータが各グループで存在⇒「平均値の差が正規分布に従う」と考えてZ検定をすればいい。 | |||
より少数のための検定手法・・t検定 | |||
● | ●「Z検定よりも、とりあえずt検定を選んでおくのが基本」なわけ | ||
統計学に関して言えば「小(のための手法)は大(のための手法)をかねる」 | |||
Z検定とt検定の基本的な考え方は共通: 「平均値の差」が「平均値の差の標準偏差」の何倍になるのか、という値が確率的にどれほどあり得ないかを示すp値を求める |
|||
■ | ■12 検定の多重性とその処方箋 | ||
★ | ★第3章 洞察の王道となる手法群・・・重回帰分析とロジスティック回帰 | ||
■ | ■13 統計学の王道「回帰分析」 | ||
■ | ■14 回帰直線はどのような求められるのか? | ||
■ | ■15 複数の説明変数を一気に分析する重回帰分析 | ||
■ | ■16 ロジスティック回帰とその計算を可能にする対数オッズ | ||
■ | ■17 回帰モデルのまとめて補足 | ||
■ | ■18 実用的な回帰モデルの使い方・・・インプット編 | ||
■ | ■19 実用的な回帰モデルの使い方・・・アウトプット編 | ||
★ | ★第4章 データの背後にある「何か」・・・因子分析とクラスター分析 | ||
■ | ■20 心理学者が開発した心理分析の有用性 | ||
■ | ■21 因子分析とは具体的に何をするのか? | ||
■ | ■22 クラスター分析という基本思想 | ||
■ | ■23 k-means 法によるクラスター分析 | ||
★ | ★終章 統計手法のまとめと使用の手順 | ||
■ | ■24 本書のまとめ | ||
■ | ■25 ビジネスで用いる場合の分析の手順 | ||
■ | ■26 本書では得られない3つの知識 | ||
★ | ★数学的補足 | ||