2025年1月8日 星期三

Perl one-liner 中 -MO=Deparse 參數--反向剖析功能

 以上回的指令為例,加上 -MO=Deparse  參數,產生如下輸出

>perl -MO=Deparse -0777 -ne "$temp=$1 and $temp=~s/\n//g and print $temp while /(?s)--- -- --(.+?)---/g" abc.ini

BEGIN { $/ = undef; $\ = undef; }

LINE: while (defined($_ = readline ARGV)) {

    $temp = $1 and $temp =~ s/\n//g and print $temp while /(?s)--- -- --(.+?)---/g;

}

-e syntax OK

這個選項在除錯時滿有幫助的,例如,我們可以用分號代替 and 關鍵字看看結果

>perl -MO=Deparse -0777 -ne "$temp=$1 ; $temp=~s/\n//g ; print $temp while /(?s)--- -- --(.+?)---/g" abc.ini

BEGIN { $/ = undef; $\ = undef; }

LINE: while (defined($_ = readline ARGV)) {

    $temp = $1;

    $temp =~ s/\n//g;

    print $temp while /(?s)--- -- --(.+?)---/g;

}

-e syntax OK

其中 $1 還沒被定義就使用了,在執行期會發生錯誤。




2025年1月2日 星期四

以 perl one-liner 對多行文字檔進行跨行比對,印出相符字串

先講結論。abc.ini為輸入檔,要比對--- -- --開頭、---結尾的字串,允許跨行。一行以蔽之:

perl -0777 -ne "$temp=$1 and $temp=~s/\n//g and print $temp while /(?s)--- -- --(.+?)---/g" abc.ini

之前遇到這種問題都會用暫時變數記一堆狀態來解決,昨天突發奇想,找到一些參數,沒想到也能一行解決。簡單來說就是兩個技巧的連續技。

第一個技巧是 -0777 參數, 參 Slurp a file from the command line with -g – The Effective Perler ,如果 perl 是 5.36 以後的版本,也可以直接下 -g 參數即可。顧名思義就是把輸入檔串成一個字串。

第二個技巧是 (s?) 開關, 參 Perl regex match string including newline - Stack Overflow  ,其作用是讓 DOTALL 開關打開,使單字元萬用比對符納入換行符號。

其它的小變化有二,一是 while 的使用,因為你把資料串成一行了,-ne 中幫你做的 while 就沒有原來的迴圈效果了,因此要手動加上;二是 /g 開關要加上,理由同上。

額外的變化有二, (.+?) 是讓比對不要貪心(greedy),$temp 是把結果的換行字元取代掉。

又是一個充實的補丁日呢~~



2024年12月26日 星期四

"it's not a bug, it's a feature" (INABIAF) 再次發功--論 scrapy 的 SpiderLoader

問題是這樣呈現的, scrapy 撰寫的爬蟲以 scrapy crawl 啟動 spider A 時,卻啟動了不相關的 spider B,吐出來一堆該 spider B 中未實做完成而造成的(執行期)錯誤。

一開始的直覺是,我啟動了錯誤的 spider ,因此瘋狂修改命令列指令,甚至故意啟動 spider B,當然,錯誤仍然一直出現。寫程式最怕的就這種隔離不了的錯誤,看不到的臭蟲躲在角落竊笑,笑得你心裏發寒。

python - Scrapy spider shows errors of another unrelated spider in the same project - Stack Overflow 這篇討論是我翻查過的串文中最接近的一篇,但是與我遇到的問題不直接相關。然而,他其中一句話隔了半天以後才點醒了我:

SpiderLoader imports and caches all of the spiders in a project when initiated.

所以 spider B 被載入了,這是完全沒有必要的;所以 spider B 中尚未準備好被執行的程式碼被執行了,吐出了錯誤訊息,而讓人誤以為 spider B 被錯誤地執行了,其實它只是被載入而已;當然對某些動態形態系統 ( dynamic typing system ) 來說,這是很自然且被稱許的事情。

相關的知識可以查看 https://www.cnblogs.com/kingron/p/14345855.html 及 https://docs.scrapy.org/en/2.11/_modules/scrapy/spiderloader.html,然而這個問題的呈現是如此的幽微,除錯起來格外的吃力。謹以此梗圖致敬



2024年12月14日 星期六

chkdsk c: /r #時不時硬碟就要來檢查一下

了解Chkdsk指令程式並在Windows上用CHKDSK診斷和修復磁碟機 - iT 邦幫忙::一起幫忙解決難題,拯救 IT 人的一天

 Chkdsk命令用於執行廣泛的磁碟機的檢查,尋找檔案系統中的實體磁片錯誤,並嘗試從任何受影響的磁片磁區復原資料。其中c可替換成其他需要檢查的磁碟機代號。

若修復成功,但出現"存取被拒"訊息,請參 外接硬碟無法存取別擔心丨6+方法輕鬆修復 中的"修復3. 獲取外接硬碟的權限",新增使用者權限;"群組或使用者名稱"中若無"Authenticated Users",則按"新增",手動增加一個。



2024年12月10日 星期二

ckiptagger 在 Google Colab 上出現 `LSTMCell` is not available with Keras 3 錯誤

參 https://www.facebook.com/groups/pythontw/posts/10163853295558438/

改用 ckip-transformers 

安裝指令(colab中)

!pip install -U ckip-transformers

引入模組

from ckip_transformers.nlp import CkipWordSegmenter

宣告實例

ws_driver  = CkipWordSegmenter(model="bert-base",device=0)

執行分詞

word_sentence_list = ws_driver(sentence_list, delim_set = {...},use_delim=True)

又做了一早的 Monkey Patching ,頭腦都變好了呢(並沒有)





2024年11月3日 星期日

NotebookLM 初探--分析 http://introtodeeplearning.com/ 頁面

 摘要

「MIT 深度學習 6.S191」是一個由麻省理工學院提供的入門深度學習課程,涵蓋了電腦視覺、機器人學、醫學、語言、遊戲和藝術等多個領域。課程以密集的訓練營形式進行,旨在讓學員快速掌握深度學習的基本概念。除了課程內容之外,網站上也提供了一些資源,像是講義、影片、程式碼和論文。 课程還邀请到了来自Google DeepMind、Comet ML 的演讲者分享他們在深度学习领域的成果和应用,分别探讨了生成式 AI 在音频、图像和视频方面的研究进展以及在生产环境中应用机器学习模型的挑战和最佳实践。

MIT 6.S191 深度學習入門 常见问题解答

關於課程

1. 什麼是 MIT 6.S191 深度學習入門?


MIT 6.S191 深度學習入門是一個密集且高效率的短期課程,旨在以最快速度教授深度學習的基礎知識。課程涵蓋深度學習算法的基礎知識、構建神經網絡的實踐經驗以及大型語言模型和生成式 AI 等尖端主題的理解。課程結束時會舉辦專案提案競賽,並由工作人員和行業贊助商小組提供反饋。


2. 課程時間和地點?


2024 年的實體課程已結束,於每週一的美國東部時間上午 10 點在 MIT 32-123 教室舉行。線上課程則於每週一的美國東部時間上午 10 點直播。 您可以訂閱頻道以接收新課程發布的通知。


3. 課程需要哪些先修知識?


我們期望學生具備基本的線性代數和微積分知識,例如如何進行矩陣乘法、求導數和應用鏈式法則。熟悉 Python 也會很有幫助,但並非必要條件。 該課程對初學者很友善,因為我們有許多來自電腦科學以外領域的註冊學生。


4. 是否有課程郵件清單可以加入?


如果您想接收相關更新和課程資料,請訂閱我們的 YouTube 頻道並註冊我們的郵件清單。


課程資料

5. 課程資料是否為開源?


所有資料均免費向全世界開源,並受 MIT 許可證版權保護。如果您是講師,並且想使用本課程中的任何資料(幻燈片、實驗室、程式碼),則必須在每張幻燈片上添加以下參考:


© Alexander Amini 和 Ava Amini MIT 深度學習入門 IntroToDeepLearning.com


6. 如何引用這些資料?


所有資料均受版權保護,並根據 MIT 許可證獲得許可。如果您是講師,並且想使用本課程中的任何資料(幻燈片、實驗室、程式碼),則必須在每張幻燈片上添加以下參考:


© Alexander Amini 和 Ava Amini MIT 6.S191:深度學習入門 IntroToDeepLearning.com


參與課程

7. 如何參與課程教學?


如果您是 MIT 學生、博士後、教職員工或附屬機構,並且想參與本課程,請發送電子郵件至 introtodeeplearning-staff@mit.edu。 我們隨時歡迎新的申請加入課程團隊。


8. 如何成為課程贊助商?


本課程的順利進行離不開我們出色的贊助商,Google、IBM、NVIDIA、Microsoft、Amazon、LambdaLabs、騰訊 AI、安永和 Onepanel 都曾贊助過本課程。如果您有興趣以贊助商的身份參與本課程,請通過 introtodeeplearning-staff@mit.edu 與我們聯繫。

## MIT 6.S191 課程內容


這個高效密集的訓練營旨在盡快教你深度學習的基礎知識! MIT 6.S191 深度學習入門課程涵蓋深度學習演算法的基礎知識、構建神經網路的實踐經驗,以及對尖端主題(包括大型語言模型和生成式 AI)的理解。 課程結束時會舉辦專案提案競賽,並由工作人員和行業贊助商小組提供反饋。


**課程主題包括:**


* 深度學習介紹

* 深度序列建模

* 使用 TensorFlow 進行音樂生成

* 深度電腦視覺

* 深度生成建模

* 臉部偵測系統

* 深度強化學習

* 新領域

* 大型語言模型

* 生成式 AI 媒體應用

* 模型在實際應用中的故事


**課程還包括軟體實驗室,涵蓋以下主題:**


* TensorFlow 介紹;音樂生成

* 臉部偵測系統

* 大型語言模型


**先修條件:**


課程假設你具備微積分(例如求導數)和線性代數(例如矩陣乘法)的基礎知識,其他所有內容都會在課程中進行解釋。 具有 Python 經驗會有所幫助,但並非必要。 歡迎旁聽者!


**評分政策:**


2024 年,6.S191 將作為一門 6 學分的 MIT 課程提供,並根據專案提案作業的完成情況評分為 P/D/F。


**開放原始碼材料:**


所有課程材料都以 MIT 許可證的版權免費開放給全世界。 如果你是一位講師,並希望使用本課程中的任何材料(幻燈片、實驗室、程式碼),則必須在每張幻燈片中新增以下參考文獻:

MIT 深度學習課程 6.S191 時間軸與人物介紹

時間軸

2024 年


4 月 29 日: 深度學習介紹 (Lecture 1)

5 月 6 日: 深度序列建模 (Lecture 2)

軟體實驗室 1: 音樂生成 (Software Lab 1)

5 月 13 日: 深度電腦視覺 (Lecture 3)

5 月 20 日: 深度生成模型 (Lecture 4)

軟體實驗室 2: 臉部辨識系統 (Software Lab 2)

5 月 27 日: 深度強化學習 (Lecture 5)

6 月 3 日: 新領域 (Lecture 6)

軟體實驗室 3: 大型語言模型 (Software Lab 3)

6 月 10 日: 生成式 AI 與媒體 (Lecture 7)

6 月 17 日: 模型實戰案例 (Lecture 8)

6 月 24 日:期末專案簡報 (Project Presentations)

頒獎典禮 (Awards Ceremony)

人物介紹

講師


Alexander Amini:課程主要講師與組織者。

Ava Amini:課程主要講師與組織者。

Sadhana Lolla:課程講師與助教負責人。

助教與工作人員


Shorna Alam: 助教

Anirudh Valiveru: 助教

Divya Nori: 助教

Alex Lavaee: 助教

Shreya Ravikumar: 助教

Franklin Wang: 助教

John Werner: 社群與策略

Eva Xie: 助教

客座講者


Douglas Eck:Google DeepMind 資深研究總監。

專長領域為聲音、影像、3D 與影片生成,以及機器學習與人機互動。

創立 Magenta 計畫,探索 AI 在藝術與音樂創作中的角色。

Nikolas Laskaris:Comet ML 副總裁。

研究員與創業家,曾任職於耶魯大學研究氣候變遷與複雜系統。

Douglas Blank:Comet ML 研究主管。

擁有電腦科學與認知科學博士學位,研究重點為類比神經網路訓練。

曾於布林莫爾學院教授機器人學、認知科學和電腦科學課程。





2024年10月25日 星期五

LLM 對時差問題的理解(或不理解?)

 在臉書社團看到 LLM 對台北與東京時差回答有誤,實測 ChatGPT-4o 一下的確如此:


Google Gemini 的回答則正確



令人擔心的幻覺問題仍然存在