エビラボ

教育×データサイエンスをここから始める。

教育をどのようにデータサイエンスするか

f:id:edtech:20180111151720j:plain

教育への2種類の関わり方

よほど特殊な事情がない限り、殆ど全ての人が教育に関わりを持ったことがあるはずですが、教育への関わり方は大きく分けると2種類あります。
一つは、教育を与えるもの。つまり、学校や企業や国のことを指します。場合によっては、親や友達といった個人の関係もこれに値することがあります。
もう一つは、教育を受けるものです。これは基本的には個人を指しますが、場合によっては団体(企業やグループ)で教育を受けたりしますので、ここでは単純に「人」としておきます。

何の為に教育にデータサイエンスが必要か

上記であげた2つの教育への関わり方について、どちらも意思決定をする場面が多々ありますが、教育を受けるとき、教育を提供するときに必要な意思決定を正しく行う為に、データサイエンスが必要になります。
では、具体的に2つの教育への関わり方について、データサイエンスでは、どのような要素を元に意思決定を行うべきか紹介します。

教育を受けるもの(人)の意思決定に必要な要素

何のスキルどんな学習方法で身に付けるかを意思決定する為の要素とは、

1. 何のスキルを身に付けるかについて

  • スキルを身に付けた時の人的資本価値
  • スキルを身に付ける為に必要なコスト

2. どんな学習方法で身に付けるかについて

  • その学習方法を行った時の効果(スキル習得度)
  • その学習方法を行う為に必要なコスト

以上、4つの要素で意思決定を行うことができる。

教育を与えるもの(学校・企業・国)の意思決定に必要な要素

何のスキルどんな学習方法で提供するかを意思決定する為の要素とは、

1. 何のスキルを身に付けるかについて

  • スキルを身に付けた時の人的資本価値
  • スキルを身に付ける為に必要なコスト

2. どんな学習方法で提供するかについて

  • その学習方法を行った時の効果(スキル習得度)
  • その学習方法を提供する為に必要なコスト

3. 売り上げについて

  • そのスキルをその学習方法で提供する場合の売上

以上、5つの要素で意思決定を行うことができる。

教育にはコストがつきもの

教育にはコスト(代金)が必ずかかります。受ける場合にも、与える場合にも必要になります。ですので、無限に提供することも無限受けることもできません。
もし、教育対象者の人的資本価値を高める為に教育を行うのであれば、上記のような要素を考慮して効率よく教育を行うことが不可欠になってくるはずです。

アンケートは全員が受けなくても大丈夫?最低限必要なサンプル数とは。

f:id:edtech:20180103172607j:plain

教育現場では、生徒や保護者を対象にアンケートを実施することが多いと思います。

例えば、授業アンケートや学校評価アンケート、修学旅行の行き先や合唱コンクールの曲、生徒会の選挙など、たくさんの場面でアンケートや多数決を取ることがあったりしますね。

アンケートを集計する際に、もちろん対象者全員分のアンケートを集計することができれば一番良いのだが、例えば保護者の方を対象に学校評価をしていただく場合、全対象者のアンケートを収集することは簡単では無いはずです。

そこで、今回は、全員分のアンケートが収集できなかったとしても、最低限どれだけのアンケートを集められれば、確かな結果が得られるかについてお話ししたいと思います。

何人分のアンケートがあれば統計的に十分か

視聴率は日本の全世帯を調査しているわけでは無い

突然ですが、視聴率の出し方を知っていますか?日本には約5200万の世帯がありますが、視聴率はこの全ての世帯に対して調査が行われて集計された結果でしょうか?

答えはもちろんNOです。
実際は6600世帯しか調査しておりません。
つまり、ざっくり言うと約5199万世帯は調査を受けていない。そして、全体の0.01%ほどしか調査していないんです。

でも、統計学上、それだけのサンプルを集めれば十分信頼できる集計結果が出せるのです。全体のたった0.01%で。

400人分のアンケート結果と、人類70億人のアンケート結果はあまり変わらない

極端な話をしますが、究極的に言うと、地球上からランダムで選ばれた400人に受けてもらったアンケートの集計結果と、地球上の人類、約70億人全員に受けてもらったアンケートの集計結果はあまり変わらない。別の言い方で言うと、69億9千万人のアンケートを集めても無駄なのです。

理由については、後ほど説明しますが、ざっくりと400人で十分ということを知っておけば、1000人の生徒が在籍する学校でも、400人のアンケートがあれば十分なんだと分かり、すぐに現場で活用できるはずなので、覚えていただけたら便利かなと思います。

最低限必要なサンプル数を求める式

以下の数式で、必要なサンプル数 nを求めることができます。

 \displaystyle n = \frac{N}{(\frac{E}{k})^2\frac{N-1}{p(1-p)}+1}

n:必要なサンプル数
N:全体の人数(母集団の数)
E:許容できる誤差の範囲(E = 0.05)
p:想定する調査結果(p = 0.5)
k:信頼度係数(k = 1.96)

Nは母集団の数であり、先ほど例にあげた視聴率の場合なら5200万、人類を対象にするなら70億、1000人の生徒対象なら1000となります。
Eは許容できる誤差の範囲ですが、基本的に5%を用いることが多いので、0.05で固定と思っていただいても大丈夫です。
pは想定する調査結果ですが、これはとりあえずは0.5固定と考えてください。0.5にすることで、最低限必要なサンプル数は出せます。(ここの数字を調整することで、必要サンプル数をもっと少なめに見積もることも可能ですが、今回はその話は別の機会にさせて頂きます)
kは信頼度係数であり、95%の信頼度で考える場合は1.96となります。統計上、95%の信頼度を用いることが多いので、基本的に1.96固定と思って頂いて問題ないです。

上記のように長々と説明しましたが、簡単に言うと、N以外は決まった数字と考えて頂いて問題ありません。

なぜ400人分のアンケートがあれば十分なのか

前述で紹介した公式を使って、さっそく最低限必要なサンプル数を求めてみましょう。
先ほど申し上げた通り、まずは固定と考えて良い、E = 0.05、p = 0.5、k = 1.96を公式に代入してみますと、以下のようになります。

 \displaystyle n = \frac{N}{(\frac{0.05}{1.96})^2\frac{N-1}{0.5(1-0.5)}+1}

上記の式に、N=100人、1000人、1万人、10万人と代入してみると以下のようになります。

N人(母集団の数) n人(最低限必要なサンプル数)
100 79.5
1000 277.7
10000 370.0
100000 382.7

100人の母集団のときは、79.5(つまり80人)のアンケート取らないと行けないので、全体の80%のアンケートが必要ですが、1000人になると277.7人で十分となっており、全体の30%以下になりました。
また、1万人、10万人と母集団が増えていったとしても、必要なサンプル数の方はあまり変化していないことに気づくと思います。
1万人から10万人へと、9万人が増えているのに、必要なサンプル数はほんの10人程度しか増えていないのです。

そして、1万人の母集団の意見を集める場合でも、382.7人で十分だと言うことがわかります。

70億人相手でも400人のアンケートで十分なのか?

先ほど10万人の母集団の場合まで、サンプル数を求めてみました。今のところ、400人は超えていないのですが、このまま100万人、1000万人、1億、10億、70
億と増やしても、本当に400人以下となるのでしょうか?
わかりやすく確認するために、先ほどの数式をグラフにしてみましょう。

まずは、母集団の数を0人から1000人まで増やすグラフを確認します。
f:id:edtech:20171212090521p:plain
どうでしょうか。まだ、300人以下ですね。余裕です。
ただ、1000人近くと殆ど変化がないことがわかります。

次に、母集団の数を0人から1万人まで増やすグラフを確認します。
f:id:edtech:20171212090812p:plain
まだ、400人以下ですね。
そして、8000人から1万人にかけて、殆ど変化が無いように見えます。

では、10万人でやってみましょう。
f:id:edtech:20171212091127p:plain
おそらく、予想されてた通りでは無いでしょうか?1万人を超えると殆ど変化が無いですね。

では、一気に70億でやってみましょう。
f:id:edtech:20171212091311p:plain

(笑)

もはや直角に曲がって一直線ですね(笑)

ここから見て分かる通り、70億人の母集団対象でも400人のサンプルで十分なんです。

ちょっと極端に言うと、ブルゾンちえみが「地球上にはまだ35億5000万人の男がいるから大丈夫」と言ったとしても、統計上ではランダムで遭遇した400人に連続で振られたら、35億5000万人にも振られてしまうのが統計上分かってしまうんです(笑)

最低限必要なサンプル数を求める時に便利なサイト

surveymonkeyで簡単にサンプル数が計算ができる。

前述で、色々と計算について紹介しましたが、正直現場ではスピードが大事になってくると思います。
ですので、簡単に計算ができるサイトを紹介します。

surveymonkey
f:id:edtech:20171212092235p:plain

Population Sizeに母集団の人数を入力。
Confidence Levelは95%、Margin of Errorは5%の固定で問題ありません。
あとは、「CALCULATE」ボタンを押せば計算してくれます。

画像は、母集団1000人で試して見ました。
サンプル数が278人ということで、最初に計算した結果と同じですね。

URL(surveymonkey)
https://www.surveymonkey.com/mp/sample-size-calculator/

最低限必要なサンプル数の早見表

教師をやっていたとき生徒によく言っていたのが「計算ミスをしない唯一の方法は、計算をしないこと」という言葉です。工夫して計算する部分を減らせという意味ですが、利用頻度の高い計算結果を覚えてしまうというのも、計算ミスを減らす一つの手です。

ということで、最低限必要なサンプル数の早見表です。

N人(母集団の数) n人(最低限必要なサンプル数)
100 80
200 132
300 169
400 197
500 218
600 235
700 249
800 260
900 270
1000 278
2000 323
4000 351
6000 362
8000 367
10000 370
50000 382
100000 383
1000000 385
70億(笑) 385

是非、ご利用ください!