2012年9月1日 星期六

Stanford Chinese Segmenter初探(二)

關於簡繁互轉的工具

http://sptuner.blogspot.tw/2012/08/convertz-v802.html 只適用win平台下,big5/gbk/unicode/utf-8/jis/shift-jis/euc-jp各種內碼之間自由轉換

http://search.cpan.org/~audreyt/Encode-HanConvert-0.35/lib/Encode/HanConvert.pm 提到以下三種方式

# iconv | b2g | iconv
# Encode::HanConvert b2g.pl -u
# Lingua::ZH::HanConvert trad2simp

再來還有cconv及opencc
根據 http://www.byvoid.com/application/opencc/ 的說法,opencc目前是最佳解了
官網在此: http://code.google.com/p/opencc/

ps.路上經過一個大陸的corpus 網站 http://www.corpus4u.org/forum/index.php  ,滿有趣的

沒有留言:

張貼留言