2024年12月26日 星期四

"it's not a bug, it's a feature" (INABIAF) 再次發功--論 scrapy 的 SpiderLoader

問題是這樣呈現的, scrapy 撰寫的爬蟲以 scrapy crawl 啟動 spider A 時,卻啟動了不相關的 spider B,吐出來一堆該 spider B 中未實做完成而造成的(執行期)錯誤。

一開始的直覺是,我啟動了錯誤的 spider ,因此瘋狂修改命令列指令,甚至故意啟動 spider B,當然,錯誤仍然一直出現。寫程式最怕的就這種隔離不了的錯誤,看不到的臭蟲躲在角落竊笑,笑得你心裏發寒。

python - Scrapy spider shows errors of another unrelated spider in the same project - Stack Overflow 這篇討論是我翻查過的串文中最接近的一篇,但是與我遇到的問題不直接相關。然而,他其中一句話隔了半天以後才點醒了我:

SpiderLoader imports and caches all of the spiders in a project when initiated.

所以 spider B 被載入了,這是完全沒有必要的;所以 spider B 中尚未準備好被執行的程式碼被執行了,吐出了錯誤訊息,而讓人誤以為 spider B 被錯誤地執行了,其實它只是被載入而已;當然對某些動態形態系統 ( dynamic typing system ) 來說,這是很自然且被稱許的事情。

相關的知識可以查看 https://www.cnblogs.com/kingron/p/14345855.html 及 https://docs.scrapy.org/en/2.11/_modules/scrapy/spiderloader.html,然而這個問題的呈現是如此的幽微,除錯起來格外的吃力。謹以此梗圖致敬



2024年12月14日 星期六

chkdsk c: /r #時不時硬碟就要來檢查一下

了解Chkdsk指令程式並在Windows上用CHKDSK診斷和修復磁碟機 - iT 邦幫忙::一起幫忙解決難題,拯救 IT 人的一天

 Chkdsk命令用於執行廣泛的磁碟機的檢查,尋找檔案系統中的實體磁片錯誤,並嘗試從任何受影響的磁片磁區復原資料。其中c可替換成其他需要檢查的磁碟機代號。

若修復成功,但出現"存取被拒"訊息,請參 外接硬碟無法存取別擔心丨6+方法輕鬆修復 中的"修復3. 獲取外接硬碟的權限",新增使用者權限;"群組或使用者名稱"中若無"Authenticated Users",則按"新增",手動增加一個。



2024年12月10日 星期二

ckiptagger 在 Google Colab 上出現 `LSTMCell` is not available with Keras 3 錯誤

參 https://www.facebook.com/groups/pythontw/posts/10163853295558438/

改用 ckip-transformers 

安裝指令(colab中)

!pip install -U ckip-transformers

引入模組

from ckip_transformers.nlp import CkipWordSegmenter

宣告實例

ws_driver  = CkipWordSegmenter(model="bert-base",device=0)

執行分詞

word_sentence_list = ws_driver(sentence_list, delim_set = {...},use_delim=True)

又做了一早的 Monkey Patching ,頭腦都變好了呢(並沒有)