2019年12月21日 星期六

fastText 文本分類初探-- google colab 上執行為例

以下以中文出題的單選題為例來進行文本分類
首先掛載 google drive
import fasttext
from google.colab import drive
drive.mount('/content/drive')
train_data_file="/content/drive/My Drive/Colab Datasets/twmlestep2_train_clean.txt"
test_data_file_raw="/content/drive/My Drive/Colab Datasets/twmlestep2_test_clean.txt"

標記後的文本長得像這樣


接下來安裝 fastText
!pwd
%cd /home
!git clone https://github.com/facebookresearch/fastText.git
%cd fastText
!pip install .

然後進行訓練,autotuneValidationFile 參數為新版 fastText 的超參數自動調校功能,很好用
%%time
import fasttext
train_data_file="/content/drive/My Drive/Colab Datasets/twmlestep2_train_clean.txt"
test_data_file='/content/drive/My Drive/Colab Datasets/twmlestep2_test_tag.txt'
model = fasttext.train_supervised(input=train_data_file, autotuneValidationFile=test_data_file)#, autotuneDuration=18000)
model.save_model(test_data_file+".avf")

結果還不錯

測試資料經過過濾後,其實有六成多的正確率。而且進去看看資料,你會發現標錯的部分都很有道理,甚至會覺得它標得很對啊…(抓頭)

沒有留言:

張貼留言