2019年10月15日 星期二

中研院 CKIP 斷詞/詞性標注/實體辨識工具 CkipTagger 初探

看原碼日期大約是 2019.8.26 上線的,趕快來嘗鮮

網址
 https://github.com/ckiplab/ckiptagger

安裝

pip install -U ckiptagger[tf,gdown] #cuda已安裝時
pip install -U ckiptagger[tf,gdown] #cuda還沒安裝時

說明文件
https://github.com/ckiplab/ckiptagger/wiki/Chinese-README

詞性列表
https://github.com/ckiplab/ckiptagger/wiki/POS-Tags

實體類別列表
https://github.com/ckiplab/ckiptagger/wiki/Entity-Types

測試結果如下,滿合理的,硬要說有什麼問題的話,NER 找出的東西不夠,有些詞性還可以討論,相對來說 tensorflow 的 model 滿大的。但是這個工具無疑提供比結巴分詞好得多的結果,可以做為基礎來進行新詞辨識、索引建立、語義分析。繁中(正體中文)的使用者基數已經不大,這個工具的開源可以說是場及時雨。

沒有留言:

張貼留言