2024年2月29日 星期四

日文與韓文的分詞工具

 CoreNLP 之中似乎沒有針對日文與韓文的套件,比較接近的是同一團隊開發的 Stanza 

日文的相對應工具,最知名的是 MeCab: Yet Another Part-of-Speech and Morphological Analyzer  , https://github.com/taku910/mecab

韓文的對應工具則有 hyunwoongko/pecab: Pecab: Pure python Korean morpheme analyzer based on Mecab , bab2min/kiwipiepy: Python API for Kiwi , 及 konlpy/konlpy: Python package for Korean natural language processing. 等等,其它可參考 korean-nlp · GitHub Topics

韓文得益於使用空白分割語句,在分詞上有較好的效果。


譯自英文-MeCab是一個開源文本分割庫,用於使用最初由奈良科技學院開發的日語編寫的文本,目前由Taku Kudou維護,作為其Google Japanese Input項目工作的一部分。該名稱源於開發商最喜歡的食物mekabu,這是一種用裙帶菜葉子製成的日本料理。 from 维基百科(英文)