n>30?
單就中央極限定理,並無法證明 n>30 時抽樣分配近似常態、即可以用標準常態分配取代t分配,可見以下連結
https://www.researchgate.net/post/What_is_the_rationale_behind_the_magic_number_30_in_statistics
目前看來還是要依不同狀況來計算所需的檢定力,反推出至少要抽多少樣本
抽後放回,連抽n次 vs. 一次抽n個
歷史上常態分配的推導是來自於二項分配,絕大部分不是數理統計背景的作者,都誤會了"
中央極限定理(CLT)"中的n,它不是一次抽取n個樣本,而是"n次伯努利實驗",也就是觀測的"次數",參見以下連結:
https://zh.wikipedia.org/wiki/%E4%B8%AD%E5%BF%83%E6%9E%81%E9%99%90%E5%AE%9A%E7%90%86
LLN
在論證中央極限定理前,有一個小標題經常被忽略掉了,叫做"
大數法則(the law of large numbers (LLN) ),它的意涵才是"一次抽取n個樣本,n愈大時,樣本均數愈接近(收斂至)母體均數",但是除非母體分配是 well behaved (最好是常態或接近常態),不然是有可能不會成立的!!
而當母體為有限母體時,則必需由樣本變異數所估計的母體變異數需以"有限母體校正因子"校正,因前者持續(一致)地高估了母體變異數 。嚴格來說在 LLN 的篇幅中交代變異數是沒有必要的,也容易造成初學者更多的誤解,最好在後續的抽樣分配課程中再來介紹會比較適當。
今日之所以在統計程序上的計算少見此類校正,乃是因為各種樣本分配已經建立在未校正變異數之上,所以即使所用的標準誤不是無偏估計量,大家也都無感…
CLT
回到CLT,它的意涵是"我管你一次觀測抽幾個樣本去平均,做了 n 次觀測後,再來取這 n 次觀測的平均,這樣所得到的 mean of means ,當 n 愈大,其分配愈接近常態,不論母體分配為何,只要 n 夠大(很好很強大,這才是重點…)。
so, why do we use t-test when n is relatively small (like <30 anyway)
當樣本數小時,Z值公式所得到的分配會得到較標準常態分配矮胖的 t 分配,顯見樣本標準差被
一致的低估了,這一現象勉強可以和LLN扯上一點關係…