行有餘力則以學文: TF-IDF 以整體稀有度加權來計算詞彙重要性，以決定文件的關鍵詞

2017年2月9日星期四

TF-IDF 以整體稀有度加權來計算詞彙重要性，以決定文件的關鍵詞

打關鍵字可以找出一堆網頁，但是有說明力的網頁，在設計和撰寫上是有一些工夫的。

我個人滿喜歡文本分析初探裏的說明，一是在第一頁就講到重點，二是適當的使用實例和圖片/公式，這篇的觀眾就是大眾導向。

排名較高的如 TF-IDF Text-mining 演算法使用的是很正規的公式，這在翻成程式碼時很直觀，每個下標都對應一個迴圈；但是很多讀者是害怕數學公式的( formula-phobia )，當然例子舉得很好，這篇的觀眾就是工程師導向。

用我的話再解釋一次 tf-idf 的話，假設有 m 份文件， n 種辭彙：