2016年3月5日 星期六

What is the rationale behind the magic number 30 in statistics? What's the difference between LLN and CLT?

n>30?

單就中央極限定理,並無法證明 n>30 時抽樣分配近似常態、即可以用標準常態分配取代t分配,可見以下連結

https://www.researchgate.net/post/What_is_the_rationale_behind_the_magic_number_30_in_statistics

目前看來還是要依不同狀況來計算所需的檢定力,反推出至少要抽多少樣本

抽後放回,連抽n次 vs. 一次抽n個


歷史上常態分配的推導是來自於二項分配,絕大部分不是數理統計背景的作者,都誤會了"中央極限定理(CLT)"中的n,它不是一次抽取n個樣本,而是"n次伯努利實驗",也就是觀測的"次數",參見以下連結:

https://zh.wikipedia.org/wiki/%E4%B8%AD%E5%BF%83%E6%9E%81%E9%99%90%E5%AE%9A%E7%90%86

LLN


在論證中央極限定理前,有一個小標題經常被忽略掉了,叫做"大數法則(the law of large numbers (LLN) ),它的意涵才是"一次抽取n個樣本,n愈大時,樣本均數愈接近(收斂至)母體均數",但是除非母體分配是 well behaved (最好是常態或接近常態),不然是有可能不會成立的!!

而當母體為有限母體時,則必需由樣本變異數所估計的母體變異數需以"有限母體校正因子"校正,因前者持續(一致)地高估了母體變異數 。嚴格來說在 LLN 的篇幅中交代變異數是沒有必要的,也容易造成初學者更多的誤解,最好在後續的抽樣分配課程中再來介紹會比較適當。

今日之所以在統計程序上的計算少見此類校正,乃是因為各種樣本分配已經建立在未校正變異數之上,所以即使所用的標準誤不是無偏估計量,大家也都無感…

CLT


回到CLT,它的意涵是"我管你一次觀測抽幾個樣本去平均,做了 n 次觀測後,再來取這 n 次觀測的平均,這樣所得到的 mean of means ,當 n 愈大,其分配愈接近常態,不論母體分配為何,只要 n 夠大(很好很強大,這才是重點…)。

so, why do we use t-test when n is relatively small (like <30 anyway)


當樣本數小時,Z值公式所得到的分配會得到較標準常態分配矮胖的 t 分配,顯見樣本標準差被一致的低估了,這一現象勉強可以和LLN扯上一點關係…

2016年3月4日 星期五

one feature for one commit

想提升工作效率嗎?聽聽 Facebook 高效能工程師怎麼說!

當然,架構的改變可能不是幾行可以解決。那就把大目標再次分拆為小目標,並修正說明文字吧!