2016年4月3日 星期日

windows 作業系統 "檔案名稱將會太長 目的地資料夾無法接受"的問題

https://support.microsoft.com/en-us/kb/2891362

http://answers.microsoft.com/en-us/windows/forum/windows_10-files/source-path-too-long-bug-in-windows-10/b0cb82b0-85c1-4fcf-81cd-041b2175563e?page=3

windows 10 目前竟然還沒有修正…sigh


2016年3月5日 星期六

What is the rationale behind the magic number 30 in statistics? What's the difference between LLN and CLT?

n>30?

單就中央極限定理,並無法證明 n>30 時抽樣分配近似常態、即可以用標準常態分配取代t分配,可見以下連結

https://www.researchgate.net/post/What_is_the_rationale_behind_the_magic_number_30_in_statistics

目前看來還是要依不同狀況來計算所需的檢定力,反推出至少要抽多少樣本

抽後放回,連抽n次 vs. 一次抽n個


歷史上常態分配的推導是來自於二項分配,絕大部分不是數理統計背景的作者,都誤會了"中央極限定理(CLT)"中的n,它不是一次抽取n個樣本,而是"n次伯努利實驗",也就是觀測的"次數",參見以下連結:

https://zh.wikipedia.org/wiki/%E4%B8%AD%E5%BF%83%E6%9E%81%E9%99%90%E5%AE%9A%E7%90%86

LLN


在論證中央極限定理前,有一個小標題經常被忽略掉了,叫做"大數法則(the law of large numbers (LLN) ),它的意涵才是"一次抽取n個樣本,n愈大時,樣本均數愈接近(收斂至)母體均數",但是除非母體分配是 well behaved (最好是常態或接近常態),不然是有可能不會成立的!!

而當母體為有限母體時,則必需由樣本變異數所估計的母體變異數需以"有限母體校正因子"校正,因前者持續(一致)地高估了母體變異數 。嚴格來說在 LLN 的篇幅中交代變異數是沒有必要的,也容易造成初學者更多的誤解,最好在後續的抽樣分配課程中再來介紹會比較適當。

今日之所以在統計程序上的計算少見此類校正,乃是因為各種樣本分配已經建立在未校正變異數之上,所以即使所用的標準誤不是無偏估計量,大家也都無感…

CLT


回到CLT,它的意涵是"我管你一次觀測抽幾個樣本去平均,做了 n 次觀測後,再來取這 n 次觀測的平均,這樣所得到的 mean of means ,當 n 愈大,其分配愈接近常態,不論母體分配為何,只要 n 夠大(很好很強大,這才是重點…)。

so, why do we use t-test when n is relatively small (like <30 anyway)


當樣本數小時,Z值公式所得到的分配會得到較標準常態分配矮胖的 t 分配,顯見樣本標準差被一致的低估了,這一現象勉強可以和LLN扯上一點關係…

2016年3月4日 星期五

one feature for one commit

想提升工作效率嗎?聽聽 Facebook 高效能工程師怎麼說!

當然,架構的改變可能不是幾行可以解決。那就把大目標再次分拆為小目標,並修正說明文字吧!

2016年2月29日 星期一

ubuntu 上用 apt-get 安裝/更新 node.js

警告:heroku 用戶請勿進行此動作,否則後果自負。(heroku 有自己的版本)

參考 https://github.com/nodesource/distributions

簡單來說就是新增個來源位置,然後直接 apt-get

curl -sL https://deb.nodesource.com/setup_5.x | sudo -E bash -

sudo apt-get install -y nodejs

20171010更新:

同樣的道理,要裝 6.x 版就是把5改成6,要裝 8.x 版就是把5改成8,依此類推


什麼是 sci-hub ? 能吃嗎(誤)

Sci-hub的故事

端聞 被美國關停的學術論文免費下載網站Sci-Hub復活了

sci-hub —— 如何简洁而优雅地下载文献

下載論文不求人,超過4,700萬篇論文透過Sci-Hub免費下載

2016年2月28日 星期日

抽樣分配的整理

http://lmh-ymh.myweb.hinet.net/Stat1/ch7.htm

這個網頁整理得很完整,還包含了理論分配的整理

http://homepage.ntu.edu.tw/~huilin/2008-1/ch9.pdf

詳盡的說明

http://sites.stat.psu.edu/~ajw13/stat500_su_res/notes/lesson05/lesson05_03.html

英文的網頁,寫得滿不錯

https://www.ma.utexas.edu/users/parker/sampling/repl.htm

有些重要的概念,像標準誤(standard error),就是樣本均數的標準差;with replacement (每次抽後放回) 才是母體變異數/n 的無偏估計量;without replacement (每次抽後不放回,相當於一次抽n個) 並非母體變異數/n 的無偏估計量;這些概念在這個 UT 的網頁都解釋得很詳細。

http://homepage.ntu.edu.tw/~sschen/Book/Slides/Ch14TS-Boot.pdf

所以回過頭來說,抽樣數是否必需小於樣本數呢?當然是不需要的。實務上最廣泛的應用就是蒙地卡羅法模擬法的好兄弟, bootstrap (提靴法) 這種重新取樣 (resampling method) 。

git 最佳實務/指令速查表

Git Commands and Best Practices Cheat Sheet


有人畫成了美圖出來了,這才是實際上的工作流程啊…