行有餘力則以學文: TF-IDF 以整體稀有度加權來計算詞彙重要性，以決定文件的關鍵詞

2017年2月9日星期四

TF-IDF 以整體稀有度加權來計算詞彙重要性，以決定文件的關鍵詞

打關鍵字可以找出一堆網頁，但是有說明力的網頁，在設計和撰寫上是有一些工夫的。

我個人滿喜歡文本分析初探裏的說明，一是在第一頁就講到重點，二是適當的使用實例和圖片/公式，這篇的觀眾就是大眾導向。

排名較高的如 TF-IDF Text-mining 演算法使用的是很正規的公式，這在翻成程式碼時很直觀，每個下標都對應一個迴圈；但是很多讀者是害怕數學公式的( formula-phobia )，當然例子舉得很好，這篇的觀眾就是工程師導向。

用我的話再解釋一次 tf-idf 的話，假設有 m 份文件， n 種辭彙：

tf 就是 m X n 大小的矩陣，每個元素是該辭彙在該文件中出現的次數(可做些正規化)
df 就是長為 n 的向量，每個元素是包含該辭彙出現的文件數(佔總文件數的比例)
idf 就是 df 的倒數，為免發生除以 0 的情況， idf = 1 / (1 + df)
tf-idf 就是 tf 的每個值對於對應的辭彙做加權

這種計算其實有點 arbitrary ．臨界值可能要有點取捨才能得到好的模型，各數值本身也可以做正規化以得到不同的結果。好處就是計算快，所以花點時間都能調出不錯的結果。

行有餘力則以學文

2017年2月9日星期四

TF-IDF 以整體稀有度加權來計算詞彙重要性，以決定文件的關鍵詞

沒有留言:

張貼留言

常用資訊速查

搜尋此網誌

熱門文章

網誌存檔

行有餘力 則以學文

2017年2月9日 星期四

TF-IDF 以整體稀有度加權來計算詞彙重要性，以決定文件的關鍵詞

沒有留言:

張貼留言

常用資訊速查

搜尋此網誌

熱門文章

網誌存檔

行有餘力則以學文

2017年2月9日星期四