參 https://www.meziantou.net/comparing-files-using-visual-studio-code.htm , https://oranwind.org/vs-code-difference-comparison/
這個功能其實應該可以放在右邊程式碼的 tab 上,比較直觀一點,不是嗎 M$
2019年9月21日 星期六
2019年9月18日 星期三
漢字的標準化問題
在整理索引檔時發現一個奇怪的問題,像"糖尿"這個詞竟然出現兩次,而且有完全不同的編碼。經過一番整理之後,才了解有些字有所謂的"異體字"問題,某些字型可以看得出不同,某些字型則看來完全相同。詳細的列表可見 https://ctext.org/faq/normalization/zh
解決的方式是在後續處理之前先進行正規化,這類的例字還有 Guillain-Barré 中 é 有相當數量以 e (無重音) 出現的例子。參 https://python3-cookbook.readthedocs.io/zh_CN/latest/c02/p09_normalize_unicode_text_to_regexp.html
程式就一行,其中 ORIGINAL_TEXT 為尚未正規化的原始字串:
unicodedata.normalize('NFC', ORIGINAL_TEXT)
解決的方式是在後續處理之前先進行正規化,這類的例字還有 Guillain-Barré 中 é 有相當數量以 e (無重音) 出現的例子。參 https://python3-cookbook.readthedocs.io/zh_CN/latest/c02/p09_normalize_unicode_text_to_regexp.html
程式就一行,其中 ORIGINAL_TEXT 為尚未正規化的原始字串:
unicodedata.normalize('NFC', ORIGINAL_TEXT)
2019年9月7日 星期六
神仙打鼓有時錯之--javascript 檢查文字是否為數字所組成--stackoverflow篇
錯誤示範
https://stackoverflow.com/questions/175739/built-in-way-in-javascript-to-check-if-a-string-is-a-valid-number (2000+個 up vote)
正確解答
https://stackoverflow.com/questions/4434076/best-way-to-alphanumeric-check-in-javascript (80+)
https://lowrey.me/test-if-a-string-is-alphanumeric-in-javascript/
我也被這個雷到,今天才發現,花了老子兩年才發現這個bug…
話說回來,測試真的很重要,tdd = test driven development ROCKS!!
話說回來,測試真的很重要,tdd = test driven development ROCKS!!
話說回來,測試真的很重要,tdd = test driven development ROCKS!!
https://stackoverflow.com/questions/175739/built-in-way-in-javascript-to-check-if-a-string-is-a-valid-number (2000+個 up vote)
正確解答
https://stackoverflow.com/questions/4434076/best-way-to-alphanumeric-check-in-javascript (80+)
https://lowrey.me/test-if-a-string-is-alphanumeric-in-javascript/
我也被這個雷到,今天才發現,花了老子兩年才發現這個bug…
話說回來,測試真的很重要,tdd = test driven development ROCKS!!
話說回來,測試真的很重要,tdd = test driven development ROCKS!!
話說回來,測試真的很重要,tdd = test driven development ROCKS!!
2019年8月15日 星期四
正念 (mindfulness) 的反思
今天看到這則新聞,讓我驚訝不已:
Google’s former mindfulness guru steps down from nonprofit over ‘inappropriate behavior’
顯然一些嚴謹的批評者也對正念的實證效果存疑:
Why Corporations Want You to Shut Up and Meditate
誠如上文所說,整個正念已經變成了一條產業鏈,受到最低(幾乎沒有)的監管
下文比較中性的總結了正念,如同大多數科學論文的結論:需要更多的研究…
正念冥想是否被過度炒作了
Google’s former mindfulness guru steps down from nonprofit over ‘inappropriate behavior’
顯然一些嚴謹的批評者也對正念的實證效果存疑:
Why Corporations Want You to Shut Up and Meditate
誠如上文所說,整個正念已經變成了一條產業鏈,受到最低(幾乎沒有)的監管
下文比較中性的總結了正念,如同大多數科學論文的結論:需要更多的研究…
正念冥想是否被過度炒作了
2019年8月10日 星期六
windows update 1903 error 0xc1900130
2019年8月4日 星期日
$(document).ready equivalent without jQuery
哦這是什麼爛標啊…呵呵呵,不要小看這個爛標,在SO上這個問題可是被問了一次又一次,問到不要不要的
總之一句話,在 html 文件最後宣告的即時函數,會在文件載入完畢後才執行,不需要特別處理。
有兩篇千餘個讚的SO都在講這件事:
https://stackoverflow.com/questions/9899372/pure-javascript-equivalent-of-jquerys-ready-how-to-call-a-function-when-t
https://stackoverflow.com/questions/799981/document-ready-equivalent-without-jquery
總之一句話,在 html 文件最後宣告的即時函數,會在文件載入完畢後才執行,不需要特別處理。
有兩篇千餘個讚的SO都在講這件事:
https://stackoverflow.com/questions/9899372/pure-javascript-equivalent-of-jquerys-ready-how-to-call-a-function-when-t
https://stackoverflow.com/questions/799981/document-ready-equivalent-without-jquery
2019年8月2日 星期五
StanfordNLP 初探
在 2016 的 Stanford Chinese Segmenter初探(三) 中我曾做過測試,中文的斷詞還有進步空間。時間來到 2019 年,原團隊以 PyTorch 為基礎,改寫了 CoreNLP ,成為以 Python 為實作語言的 StanfordNLP ,安裝方式簡化為一句 pip install stanfordnlp。以2016 年相同的測試語句來進行測試,結果如下:
非常令人驚訝的是這次結果完全正確,而且提供的中文模組預設是繁體中文!! 趕快下載來試試吧。
非常令人驚訝的是這次結果完全正確,而且提供的中文模組預設是繁體中文!! 趕快下載來試試吧。
訂閱:
文章 (Atom)