行有餘力則以學文: Stanford Chinese Segmenter初探

2010年12月4日星期六

Stanford Chinese Segmenter初探

從官網 http://nlp.stanford.edu/software/segmenter.shtml 下載並解壓後，執行以下命令

segment.bat pku test.simp.utf8 UTF-8 0 > out.txt

結果會存到out.txt當中

實際以繁中文件測試，結果並不理想；但翻譯為簡中後，正確率超過99%，相當出色。要直接處理繁中，有文件指出可以下達 -loadClassifier data\traditional.gz 參數，但是並沒有找到這個檔案；退而求其次的方法，應該就是把原文轉為簡中再處理了，幸好處理完不需要再轉為繁中，因為簡、繁中字的對應位置不會改變，只要把位置資訊留著就可以指回原來的文件

1 則留言:

Shelly2011年6月9日中午12:48
想請問一下，stanford parser在處理繁中也是使用新華社，人民日報的training corpus嗎？如果他在內部呼叫也只是繁中轉簡體，parse完以後再轉回來為何會有結果不同的結果？

你的blog寫的資訊很有幫助，希望能夠跟您請教！
謝謝你！
回覆刪除
回覆