2015年7月11日 星期六

在ubuntu上用R進行中文 Text Mining


  1. 先備知識:R语言环境下的文本挖掘 , R之文本挖掘 , 数据科学18:文本挖掘1 。嚴格來說這幾篇都是翻譯自 tm 模組作者的這篇文章: Introduction to the tm Package Text Mining in R
  2. 範例: https://github.com/JohnsonHsieh/ecfa/blob/master/myText2.R ,是一個完整的專案
  3. 上述github專案主要參考這篇文章 ;基本上文章寫成至今已經兩年多了,ptt的一些網頁協定(https)可能有改(推測在2014年的4月到8月間,如 "www.ptt.cc/bbs/StupidClown/index" 改成 "https://www.ptt.cc/bbs/StupidClown/index") , 因此抓取文章的部分建議參考以下所列的網頁
  4. https://www.snip2code.com/Snippet/143970/-anted-Sna ,特色在於未使用 rwordseg ,單純看推文者和作者間的關係
  5. https://github.com/agilearning/RPTT/blob/master/R/RPTT.R ,有三個函數可供使用,以抓取索引頁、文章連結、文章內容 ; 同作者另起了新的專案,附上函數的使用範例,可參考 https://github.com/agilearning/RTextMining
  6. 其它潛在應用可參考 rfacebook ,可以抓 FB 上的文章

英文 text mining 資源


https://cran.r-project.org/web/views/NaturalLanguageProcessing.html

http://www.rdatamining.com/examples/text-mining

http://faculty.chicagobooth.edu/matt.taddy/teaching/text.R

與 perl 的協作


http://search.cpan.org/~davor/Statistics-R-IO-0.101/lib/Statistics/R/IO.pm

http://search.cpan.org/dist/Statistics-RserveClient-0.12/lib/Statistics/RserveClient.pm

http://search.cpan.org/~fangly/Statistics-R-0.33/lib/Statistics/R.pm

計算語言學


http://www.amazon.com/Roger-Bilisoly/e/B001JSCDN4/ref=ntt_dp_epwbk_0

http://lopen.linguistics.ntu.edu.tw/PTT/

這個網站很有趣,是台大語言所架設的,包含了2014年起收集的 ptt 語料,中文斷字詞的線上查詢。

其它服務還有:前後綴、相關字、情緒判別, api 要註冊才能用來下載 ptt 文章(還好目前看來是免費的), wordcloud 目前提供 gossiping / hate 兩個版的輸出。看來用的是中研院的斷詞,搭配自建字庫不是經常更新的樣子。


沒有留言:

張貼留言