常用資訊速查

2017年2月9日 星期四

TF-IDF 以整體稀有度加權來計算詞彙重要性,以決定文件的關鍵詞

打關鍵字可以找出一堆網頁,但是有說明力的網頁,在設計和撰寫上是有一些工夫的。

我個人滿喜歡 文本分析初探 裏的說明,一是在第一頁就講到重點,二是適當的使用實例和圖片/公式,這篇的觀眾就是大眾導向。

排名較高的如 TF-IDF Text-mining 演算法 使用的是很正規的公式,這在翻成程式碼時很直觀,每個下標都對應一個迴圈;但是很多讀者是害怕數學公式的( formula-phobia ),當然例子舉得很好,這篇的觀眾就是工程師導向。

用我的話再解釋一次 tf-idf 的話,假設有 m 份文件, n 種辭彙:

  1. tf 就是 m X n 大小的矩陣,每個元素是該辭彙在該文件中出現的次數(可做些正規化)
  2. df 就是長為 n 的向量,每個元素是包含該辭彙出現的文件數(佔總文件數的比例)
  3. idf 就是 df 的倒數,為免發生除以 0 的情況, idf = 1 / (1 + df)
  4. tf-idf 就是 tf 的每個值對於對應的辭彙做加權
這種計算其實有點 arbitrary .臨界值可能要有點取捨才能得到好的模型,各數值本身也可以做正規化以得到不同的結果。好處就是計算快,所以花點時間都能調出不錯的結果。

沒有留言:

張貼留言