2010年12月4日 星期六

Stanford Chinese Segmenter初探

從官網 http://nlp.stanford.edu/software/segmenter.shtml 下載並解壓後,執行以下命令


segment.bat pku test.simp.utf8 UTF-8 0 > out.txt


結果會存到out.txt當中

實際以繁中文件測試,結果並不理想;但翻譯為簡中後,正確率超過99%,相當出色。要直接處理繁中,有文件指出可以下達  -loadClassifier data\traditional.gz 參數,但是並沒有找到這個檔案;退而求其次的方法,應該就是把原文轉為簡中再處理了,幸好處理完不需要再轉為繁中,因為簡、繁中字的對應位置不會改變,只要把位置資訊留著就可以指回原來的文件

1 則留言:

  1. 想請問一下,stanford parser在處理繁中也是使用新華社,人民日報的training corpus嗎?如果他在內部呼叫也只是繁中轉簡體,parse完以後再轉回來為何會有結果不同的結果?

    你的blog寫的資訊很有幫助,希望能夠跟您請教!
    謝謝你!

    回覆刪除