統計検定3級

 ◎間違えそうな量的変数と質的変数

・量的変数:年齢

・質的変数

◎回帰分析

相関係数は、2つの変数の直線的な関係の強さを測る。

回帰分析は、2つの変数になんらかの因果関係を想定する。

◎幾何平均

・データをすべて掛ける。そして、データ数でルートする。

◎乱数表

・乱数表はどんな数字も同じ確率で選ばれるので、あらゆる数字の並びの可能性がある

◎質的変数の棒グラフ

・選択肢(カテゴリ)に順番がある場合、棒グラフを描く際にもこの順序で並べる。

・選択肢(カテゴリ)の度数を度数の合計で割った割合で描いても良い。

ヒストグラムとは異なる!!ヒストグラムは横軸は連続変数

◎連続変数に対するヒストグラム

・階級幅を常に同じにする必要はない。しかし、幅が小さくなると度数も小さくなるので注意が必要である。

・棒グラフと同じで各階級の順番を変更してはならない。

「柱の高さ」ではなく「柱の面積」を度数とする

◎共分散

共分散は変数の単位に依存するが、相関係数単位に依存しない

2変数の関係の強さを測る指標として、共分散があるが、所詮、正の相関負の相関

 かが分かるだけである。

 

相関係数

相関係数共分散/xの標準偏差*yの標準偏差である。

 でもこれをもろに計算するのはめんどい。

 分子の共分散=xyの積の平均ーxの平均*yの平均

 

xの平均、yの平均、xyの積の平均、xの標準偏差、yの標準偏差の5個のパラメータを求めよ。

結局のところ以下の式

相関係数共分散/xの標準偏差*yの標準偏差

    =xy積の平均ーxの平均×yの平均/xの標準偏差*yの標準偏差

共分散は変数の単位に依存するが、相関係数単位に依存しない

 

◎相関関数の特徴

・相関の強さは、直線的な関係の強さを示している

 つまり、ほぼ直線状に並んでいれば相関が強い

 また、相関係数がー1、1であれば、直線である。

・相関の強さで、予測できるかどうかを評価できない。

 例えば、相関0でも、曲線的な関係がある場合、予測できる。

相関係数の片方のデータにバイアスを乗せても値に変化なし:2017年6月 問17

 ◎代表値と階級値

代表値階級値

・度数分布表の各階級を代表する値を階級の代表値又は階級値と呼ぶ

・各階級の代表値は、階級の上限と下限の平均値(階級の真ん中の値)にすることが多い

◎度数分布からの平均

・方法1

 ①階級の最小値だけで平均値を求める

 ②階級の最大値だけで平均値を求める

 ③正しい平均は①②の間に必ず入る

・方法2

 ヒストグラムで平均値を元データと同じように求められないため

 階級値で代用して考える

◎Zスコア、変動係数

Zスコア=観測値ー平均値/標準偏差

変動係数標準偏差/平均値(ばらつきが平均値の何%か?)

 

◎変数の標準化(基準化)

・観測値への処理=観測値ー平均値/標準偏差・・・基準化

・基準化:平均値 0、標準偏差 1

・偏差値:平均値50、標準偏差10

   50+10×得点ー得点の平均値/標準偏差

 ◎選択率とは

「年齢別人口構成比」と「年齢別選択率」があった場合

それぞれの積を行い、これらの和が選択率となる。

 

 

◎統計的問題解決におけるデータの収集

・「統計的な問題解決の一手法」=>巡回型プロセス「PPDAC」サイクル

統計学・・・P:「知見を得たい集団」を明確化:問題の明確化

       P:「適切に計画」:実験、調査の計画

       D:「実験や調査」:データ抽出、収集

       A:「統計モデル」=>情報抽出、グラフ

       C:「集団やメカニズム」に関する知見を得る:問題の解決

・問題の明確化・・・「得られたデータで結論が出せる」というレベルまで具体化

◎実験研究と観察研究

・実験研究:対象者に介入を行う研究

・観察研究:対象者に介入を行うことなく自然の状態を観察する研究

国が実施している基幹調査 

全数調査または標本調査の理解を問われる。

1.家計調査

総務省、標本調査

・層化3段抽出法

2.国勢調査

総務省、全数調査

・5年に一度(西暦一桁が0と5の年に)

・結果はインターネットで公表される

・統計法で回答を義務づけられている

・回答方法:調査票を調査員に直接提出郵送提出インターネット提出3種

・対象者:日本国内にふだん住んでいるすべての人(外国人を含む)及び世帯

3.学校基本調査

・文部省、全数調査

・学校教育法、市町村教育委員会

4.国民経済計算

内閣府

・我が国の経済の全体象を国勢比較可能な形で体系的に記録することが目的

 

◎調査票について

 ・個人情報は含めてよい

・調査対象は一般の住民

・調査対象は誰にでも分かりやすい文章にすべき

・調査票の選択肢は「分からない」を含めてもよいし、含めなくてもよい

◎全数調査と標本調査

・特徴傾向を知りたい集団・・・母集団 <=> 標本

・標本に含まれる人数等・・・標本の大きさ *注意:標本数ではない。

・標本を偏りなく抽出する方法・・・確率的な現象を用いて、母集団から同確率で抽出

   ー単純無作為抽出法:母集団に含まれる固定に全て異なる番号を付けて抽出

   ーくじ、サイコロ、乱数表(アナログ、コンピュータ)

◎標本調査と誤差

[概要]

・標本調査を行うと発生する誤差:「標本誤差」「非標本誤差」

・2つの誤差:さらにその性質によって「偶然変動」「偏り」に区別される

 

[]

・標本誤差・・・「全数調査」と「標本調査」の間の誤差

  -全数調査の場合、存在しない

  -統計学の知識に基づいて理論的に計算・評価する

 

・非標本誤差・・・標本誤差以外の誤差

  -調査の計画段階での誤差

  -調査単位観察の段階の誤差

  -結果の整理・解析・発表段階での誤差

  例)回答者の疲労、質問文の不備

 

・偶然変動・・・誤差の生じる方向が真値に対して過大、過小に偏らせる要因なし

 

・偏り・・・過大、過小の一方向に偏らせる特定の要因あり

 

[特徴]

・全数調査でない限り、「標本誤差」「非標本誤差」は避けられない。

非標本誤差は、全数調査の方が大きい

・全数調査と標本調査の精度は比較できない

◎分散と相関係数

・散布図上で特定データが平均より離れるとデータの分散は大きくなる

・散布図上で特定データが他のデータに近い傾向に移動すると相関関数は大きくなる

相関係数の片方のデータにバイアスを乗せても値に変化なし

◎単純無作為抽出

・標本を偏りなく抽出する方法・・・確率的な現象を用いて、母集団から同確率で抽出

   ー単純無作為抽出法:母集団に含まれる固定に全て異なる番号を付けて抽出

   ーくじ、サイコロ、乱数表(アナログ、コンピュータ)

グラフ・表

1.棒グラフ(ヒストグラム

・主にカテゴリの度数の比較に適したグラフ

・主にカテゴリの割合の比較でも良い

・量の大小を比較

 

 

2.折れ線グラフ

推移を表すグラフ

 

3.散布図

・2変数の関係を見る

 

4.帯グラフ、円グラフ

割合構成を比較

 -コンビニの1時間ごとの顧客の年齢層の割合

・複数のグループの比較、年次的な変化を調べる=>帯グラフ

 

5.箱ひげ図

・箱ひげ図から平均は求められない

・箱ひげ図では単峰であるかは判断できない(複数の山をもつ場合は表現できない)

・量的変数の散らばり具合を表す

左右のすその長い型、対称型の区別を表す

 

6.モザイク図

・クロス集計表から「縦棒の積み上げグラフ」「横幅は各層の度数」として表したグラフ

面積が各セルの度数に比例した大きさになる。

 

7.クロス集計表

質的変数の出現度数

 8.積み上げ棒グラフ

度数の変化を見る

 

9.乾葉図

・平均を求めるときは、先に10の位を計算して、次に1の位を計算すると少し楽になる

 

第7章 確率変数と確率分布

1.確率変数と確率分布の考え方

・確率変数は起こりうる事象に対して値xを割当てること。

 

コラム 確率から確率変数への拡張(展開)

確率は、特定の事象に対して「確率を一意に決めることが目的」であった。

確率変数は、複数の事象に対して「確率がどのような分布を示すのかを知ることが目的」である。

 

 

第9章 統計的な推測

1.統計的な推測

母平均、母比率と標本平均、標本比率

・標本比率とは・・・頻度論の確率は、試行を重ねて確率を求める。

          この確率は標本比率の1例である。標本比率=標本確率

統計学を用いて知りたいのは、標本調査で得られた標本平均や標本比率の信頼性

・信頼性を測るには標本平均や標本比率がどのような分布に従うかを知っておく必要がる。

標本分布(標本平均)

・標本分布とは・・・標本平均や標本比率などの標本から推定された量に関する分布

・標本分布の作り方・・・母集団から繰り返し大きさnの標本を無作為抽出し、そのたびに標本平均を計算したとすれば、これらの値は母平均のまわりに分布する。

例)サイコロ10回投げ5回行う。それぞれの標本平均を計算したならば、

  3.6、3.8、4.0、3.4、3.2

  これらの値は母平均3.5の周りに分布することが

  この繰り返しを無限回行う=>標本平均の標本分布が出来上がり!!

  これから標本の大きさ・・・10回、試行回数・・・5回

  試行回数を無限回行えば、標本平均母平均に近づく=>大数の法則

  試行回数を無限回行えば、標本平均の分布正規分布に近づく=>中心極限定理

コラム

標本分布の話は、「標本平均」が多い。これは、大数の法則」「中心極限定理

平均を議論の根っこになってあるから。

  

標本分布(標本比率)

ここまでは、標本平均の確率収束について考えた。

 

コラム 標本分布と確率分布の違い

標本分布は、標本したデータの分布。標本平均ならば母平均に収束する分布となる。

確率分布は、確率変数がどのような確率を取るかの分布。

  

◎過去問

・外れ値について

 ー外れ値の発生要因にフォーカスを当てて考える必要がある。

 ー外れ値の発生要因

   「観測ミス」「記載ミス」「データ特性上発生しうる場合」

 ー「観測ミス」「記載ミス」の場合、取り除くことが望ましい

 ー「データ特性上発生しうる」場合、必ずしも取り除くべきでない

 

・選択率:2018年6月 問14

・分散、相関係数がどのように変化するかを散布図から判断:2018年6月 問23

相関係数の片方のデータにバイアスを乗せても値に変化なし:2017年6月 問17

・74.46%≒74.5%=75%

・2018年11月:傾向を読み取るが割合があっていても、絶対数の違いが大きすぎるが

       割合通りの