行有餘力則以學文

2020年5月19日星期二

Stanford CoreNLP 發佈 4.0 版，指代消解功能大躍進

Stanford CoreNLP 發佈 4.0 版，可於 https://stanfordnlp.github.io/CoreNLP/index.html#download 下載

看看範例句子：

Stanford University is located in California. It is a great university.

試試正體中文，結果斷詞依然不太行

簡體中文則正常工作，指代消解如文件所言是working的

此次提供的語言模型只有中英法德西阿6種，~~日印俄語表示~~或許過一段時間會有其它語種?且中英文以外均無指代消解功能

德文：

Die Stanford University befindet sich in Kalifornien. Es ist eine großartige Universität.

法文：

L'université de Stanford est située en Californie. C'est une grande université.

2020年4月27日星期一

org mode 中執行 anaconda python 的設定(三)--ipython via ob-ipython(需裝 jupyter)

上篇文章的作法需指定檔名，感覺有點冗。這回我們試著用 melpa 的套件 ob-ipython 來解決

假設我們用的是 anaconda 下的 py35 環境，在此環境下安裝 jupyter，然後在 emacs 的設定：

(setq python-shell-interpreter "/Anaconda3/envs/py35/python.exe")
(org-babel-do-load-languages
'org-babel-load-languages
'((python . t) (ipython . t) ))

windows 平台需針對 windows 修改，參 https://github.com/jawatech/ob-ipython/blob/master/ob-ipython.el

或者直接在設定檔中改寫：

(defun ob-ipython--get-python ()
	(let ((buf ( or python-shell-interpreter "python")))
	(locate-file buf exec-path)))

缺點的話如同 John Kitchin 所言，只能顯示一個圖，且無法顯示其它文字。JK 在該文提出了一些改良，但是後來融合到 scimax 而集其大成。這個小改我就跳過了，直上 scimax 真的是一個爽，有空再來寫一篇心得分享。

2020年4月1日星期三

org mode 中執行 anaconda python 的設定(二)

依之前所寫的文章 org mode 中執行 anaconda python 的設定完成設定後，在 org mode 中可以執行程式片段，至於顯示圖片的寫法可參考 https://orgmode.org/worg/org-contrib/babel/languages/ob-doc-python.html

有幾個地方要注意

不再使用 :session 參考
:results 設定傳回 file ，實際上是一個連結
需將圖片儲存為一個可顯示的檔案
需以 return 關鍵字回傳檔名

2020年3月17日星期二

StanfordNLP 更名為 Stanza

這是 2020/3/6 所做的變更，首頁提供了 Colab 的執行方式

測試一下，感覺滿順的

如同其說明所言，特點如下：

無痛安裝(尤其是 Colab 很讚)
全神經網路化工作流程
支援 66 個人類語言(相當程度上受益於 UD 計劃)
仍支援 CoreNLP 後端

我滿看好整合 UD 的雄心壯志，感覺是座巴別塔(誤)

2020年3月4日星期三

以 scrapy 爬蟲抓 ptt 文章，兼論 Anaconda 下 venv 的使用

從頭刻一個當然可以，但有人已經寫好了，在 https://github.com/afunTW/ptt-web-crawler/tree/master/ptt_web_crawler

ptt-web-crawler 是一個沒有使用 scrapy 的專案，協作者 afunTW 將它 fork 了以後以 scrapy 進行改寫。我猜抓下來還是不能直接用，因此 fork 了以後才 clone。為了不影響原環境，並順便解答一些疑問，我在 anaconda 下先安裝了 scrapy ，然後在 clone 下來的目錄中，執行 python -m venv venv。然後新開一個 cmd 並進入 venv 環境，在同一目錄中執行 pip install -r requirements.txt。然後執行 scrapy crawl ptt-web -a board=Gossiping -a pages=1,2 發生三個問題，依序記錄如下

scrapy 指令無法執行

我修改了 requirements.txt ，在最後加入 scrapy 一行，執行 pip install -r requirements.txt。然後執行 scrapy crawl ptt-web -a board=Gossiping -a pages=1,2 發生第二個問題

ModuleNotFoundError: No module named 'scrapy.conf'

出自此行 from scrapy.conf import settings

試著直接comment掉，結果沒問題。可能是我在上一步沒有指定 scrapy 的版本，結果直上 scrapy 2.0 的關係。diff 如下：

--- a/ptt_web_crawler/ptt_web_crawler/spiders/ptt_web_spider.py
+++ b/ptt_web_crawler/ptt_web_crawler/spiders/ptt_web_spider.py
@@ -8,7 +8,7 @@ from six import u

import scrapy
from ptt_web_crawler.items import PttWebCrawlerItem
-from scrapy.conf import settings
+# from scrapy.conf import settings
from scrapy.exceptions import CloseSpider
from scrapy.http import FormRequest
from scrapy.spidermiddlewares.httperror import HttpError

執行 scrapy crawl ptt-web -a board=Gossiping -a pages=1,2 發生第三個問題

ImportError: DLL load failed: 找不到指定的模組。

File "C:\Anaconda3\envs\python 3.7\lib\sqlite3\dbapi2.py", line 27, in
from _sqlite3 import *

別的專案也遇到相同問題，迫使我回到 python 3.5 開發。看來直接由 cmd 進入新建的 venv 時無法取用 anaconda 已安裝的 sqlite3(以及 scrapy ，如果已經安裝了的話) ，因此必需在 anaconda 的 python 3.7 內進入 venv ，才能正常工作。至於若在新建的 venv 下重新安裝 scrapy ，也無法正常工作，仍然必需使用 anaconda 的套件才能正常工作。

Results

結果會存在 data\Gossiping\Gossiping_page_1_2.json

光兩頁就快 1M 了，改天再來寫一篇這個 json 檔的後處理

2020年3月3日星期二

generator, generator, 多少 iterator 假汝之名而行

Design Patterns (1994) 自從寫就以來，對程式語言本身似乎沒什麼影響，因為大家都找到自己的方法去實踐。一個例外是 python 的 yield 指令，它嘗試以原生的機制來做到迭代子 (iterator) 功能，通常配合的是 for / next。

拋開這些術語不談，實務上當我們使用迴圈時，會有個邏輯來告訴我們如何取得下一個元素，以及如何回傳結果(如果需要的話)。最簡單的情況，下個元素是累加 1 ，結果則寫入一個串列，並在迴圈結束時回傳 (return)。當下個元素不是累加 1 這麼單純時，若不先生成整個序列，那麼如何能達成相同的目的呢? 直觀上我們可以先生成所要迭代的元素序列。

然而出於記憶體的考量，類似檔案處理為何要走 streaming ，如果能生成每個元素時都立即進行所要的運算，那麼即使整個序列很大也沒關係。其次，生成下個元素的邏輯可以獨立於對元素的運算而抽象化，成為一個可重用的架構，這是第二個好處。

實作上典型的 yield 迭代因此就會有兩層迴圈，內層產生序列，外層逐一取得序列的元素，進行所要的運算。內層迴圈約定好去寫成一個函數，稱為 generator (定義上就是一個有回傳值的 iterator) ，外層則是第一段提到的 for / next 。內層迴圈一旦產生新元素，就必需有個機制暫停內圈執行、保存狀態、回傳元素，這就是 yield 的功用。外層迴圈以 for 迭代 generator ，隱式呼叫了 next 函數，暫停外圈執行、保存狀態、啟動/繼續內圈執行。內圈被執行後會執行到 yield (或結束迴圈產生例外，外圈依約定結束迭代，太細了處不談)暫停內圈執行、保存狀態並回傳元素。外圈取得元素並繼續執行，直到再回到 for 而隱式呼叫 next ，如此週而復始。

說實在的不用 yield 也能依 design pattern 做到相同的事，但是 yield 的工作條件實在太特殊了，這就是一個見仁見智的語言設計。隱約看得到 goto 的影子，不是嗎XD

下圖取自 python yield 語法與 generator 物件介紹

2020年2月10日星期一

Flask 的 Blueprint -- 元件協定

Flask 有個全域的 app 變數，這樣 expose 出一個執行期物件的做法， Delphi 或更早的 smalltalk 都做過，效果也都不錯，甚至還能提供元件熱插拔的神奇功能

但 Blueprint 只是著眼在對一個專案的元件化，沒有(也不需要)熱插拔。所以使用它的套件模組只能算得上是個"準"套件。

一個 web app 必需提供對網址的解析，http 的規範讓 uri 幾乎可以無縫接軌到介面端 soap / web service 及實做端的 views/templates/statics，而 Blueprint 則為這樣的積木提供了膠水，把元件們組合成一個 app。

照例上幾個參考的網址

https://stackoverflow.com/questions/24420857/what-are-flask-blueprints-exactly

A blueprint is a template for generating a "section" of a web application.

目前已經有很多套件可以在安裝後利用少許設定嵌入專案，flask 流多是使用 Blueprint

http://docs.jinkan.org/docs/flask/blueprints.html

這是官方文件的說明，對某些領域解決方案這可能對應到所謂的 router

https://spacewander.github.io/explore-flask-zh/7-blueprints.html

這是有點長的介紹，有人翻譯為中文，舉的例子不錯

http://www.bjhee.com/flask-ad6.html

程式多了起來，此文著重程式設定

https://hackmd.io/@shaoeChen/H1HIg0kqW?type=view

純使用者觀點

https://martychen920.blogspot.com/2017/09/python-flask.html

另一個使用者觀點