2016年4月3日星期日

windows 作業系統 "檔案名稱將會太長目的地資料夾無法接受"的問題

https://support.microsoft.com/en-us/kb/2891362

http://answers.microsoft.com/en-us/windows/forum/windows_10-files/source-path-too-long-bug-in-windows-10/b0cb82b0-85c1-4fcf-81cd-041b2175563e?page=3

windows 10 目前竟然還沒有修正…sigh

2016年3月5日星期六

What is the rationale behind the magic number 30 in statistics? What's the difference between LLN and CLT?

n>30?

單就中央極限定理，並無法證明 n>30 時抽樣分配近似常態、即可以用標準常態分配取代t分配，可見以下連結

https://www.researchgate.net/post/What_is_the_rationale_behind_the_magic_number_30_in_statistics

目前看來還是要依不同狀況來計算所需的檢定力，反推出至少要抽多少樣本

抽後放回，連抽n次 vs. 一次抽n個

歷史上常態分配的推導是來自於二項分配，絕大部分不是數理統計背景的作者，都誤會了"中央極限定理(CLT)"中的n，它不是一次抽取n個樣本，而是"n次伯努利實驗"，也就是觀測的"次數"，參見以下連結：

https://zh.wikipedia.org/wiki/%E4%B8%AD%E5%BF%83%E6%9E%81%E9%99%90%E5%AE%9A%E7%90%86

LLN

在論證中央極限定理前，有一個小標題經常被忽略掉了，叫做"大數法則(the law of large numbers (LLN) )，它的意涵才是"一次抽取n個樣本，n愈大時，樣本均數愈接近(收斂至)母體均數"，但是除非母體分配是 well behaved (最好是常態或接近常態)，不然是有可能不會成立的!!

而當母體為有限母體時，則必需由樣本變異數所估計的母體變異數需以"有限母體校正因子"校正，因前者持續(一致)地高估了母體變異數。嚴格來說在 LLN 的篇幅中交代變異數是沒有必要的，也容易造成初學者更多的誤解，最好在後續的抽樣分配課程中再來介紹會比較適當。

今日之所以在統計程序上的計算少見此類校正，乃是因為各種樣本分配已經建立在未校正變異數之上，所以即使所用的標準誤不是無偏估計量，大家也都無感…

CLT

回到CLT，它的意涵是"我管你一次觀測抽幾個樣本去平均，做了 n 次觀測後，再來取這 n 次觀測的平均，這樣所得到的 mean of means ，當 n 愈大，其分配愈接近常態，不論母體分配為何，只要 n 夠大(很好很強大，這才是重點…)。

so, why do we use t-test when n is relatively small (like <30 anyway)

當樣本數小時，Z值公式所得到的分配會得到較標準常態分配矮胖的 t 分配，顯見樣本標準差被一致的低估了，這一現象勉強可以和LLN扯上一點關係…

2016年3月4日星期五

one feature for one commit

想提升工作效率嗎？聽聽 Facebook 高效能工程師怎麼說！

當然，架構的改變可能不是幾行可以解決。那就把大目標再次分拆為小目標，並修正說明文字吧!

2016年2月29日星期一

ubuntu 上用 apt-get 安裝/更新 node.js

警告：heroku 用戶請勿進行此動作，否則後果自負。(heroku 有自己的版本)

參考 https://github.com/nodesource/distributions

簡單來說就是新增個來源位置，然後直接 apt-get

curl -sL https://deb.nodesource.com/setup_5.x | sudo -E bash -

sudo apt-get install -y nodejs

20171010更新：

同樣的道理，要裝 6.x 版就是把5改成6，要裝 8.x 版就是把5改成8，依此類推

什麼是 sci-hub ? 能吃嗎(誤)

Sci-hub的故事

端聞被美國關停的學術論文免費下載網站Sci-Hub復活了

sci-hub —— 如何简洁而优雅地下载文献

下載論文不求人，超過4,700萬篇論文透過Sci-Hub免費下載

2016年2月28日星期日

抽樣分配的整理

http://lmh-ymh.myweb.hinet.net/Stat1/ch7.htm

這個網頁整理得很完整，還包含了理論分配的整理

http://homepage.ntu.edu.tw/~huilin/2008-1/ch9.pdf

詳盡的說明

http://sites.stat.psu.edu/~ajw13/stat500_su_res/notes/lesson05/lesson05_03.html

英文的網頁，寫得滿不錯

https://www.ma.utexas.edu/users/parker/sampling/repl.htm

有些重要的概念，像標準誤(standard error)，就是樣本均數的標準差；with replacement (每次抽後放回) 才是母體變異數/n 的無偏估計量；without replacement (每次抽後不放回，相當於一次抽n個) 並非母體變異數/n 的無偏估計量；這些概念在這個 UT 的網頁都解釋得很詳細。

http://homepage.ntu.edu.tw/~sschen/Book/Slides/Ch14TS-Boot.pdf

所以回過頭來說，抽樣數是否必需小於樣本數呢?當然是不需要的。實務上最廣泛的應用就是蒙地卡羅法模擬法的好兄弟， bootstrap (提靴法) 這種重新取樣 (resampling method) 。

git 最佳實務/指令速查表

Git Commands and Best Practices Cheat Sheet

有人畫成了美圖出來了，這才是實際上的工作流程啊…

行有餘力則以學文

2016年4月3日星期日

windows 作業系統 "檔案名稱將會太長目的地資料夾無法接受"的問題

2016年3月5日星期六

What is the rationale behind the magic number 30 in statistics? What's the difference between LLN and CLT?

n>30?

抽後放回，連抽n次 vs. 一次抽n個

LLN

CLT

so, why do we use t-test when n is relatively small (like <30 anyway)

2016年3月4日星期五

one feature for one commit

2016年2月29日星期一

ubuntu 上用 apt-get 安裝/更新 node.js

什麼是 sci-hub ? 能吃嗎(誤)

2016年2月28日星期日

抽樣分配的整理

git 最佳實務/指令速查表

Git Commands and Best Practices Cheat Sheet

常用資訊速查

搜尋此網誌

熱門文章

網誌存檔

2016年4月3日 星期日

2016年3月5日 星期六

n>30?

抽後放回，連抽n次 vs. 一次抽n個

LLN

CLT

so, why do we use t-test when n is relatively small (like <30 anyway)

2016年3月4日 星期五

2016年2月29日 星期一

2016年2月28日 星期日

常用資訊速查

搜尋此網誌

熱門文章

網誌存檔

2016年4月3日星期日

2016年3月5日星期六

2016年3月4日星期五

2016年2月29日星期一

2016年2月28日星期日