首先掛載 google drive
import fasttext from google.colab import drive drive.mount('/content/drive') train_data_file="/content/drive/My Drive/Colab Datasets/twmlestep2_train_clean.txt" test_data_file_raw="/content/drive/My Drive/Colab Datasets/twmlestep2_test_clean.txt"
標記後的文本長得像這樣
接下來安裝 fastText
!pwd %cd /home !git clone https://github.com/facebookresearch/fastText.git %cd fastText !pip install .
然後進行訓練,autotuneValidationFile 參數為新版 fastText 的超參數自動調校功能,很好用
%%time import fasttext train_data_file="/content/drive/My Drive/Colab Datasets/twmlestep2_train_clean.txt" test_data_file='/content/drive/My Drive/Colab Datasets/twmlestep2_test_tag.txt' model = fasttext.train_supervised(input=train_data_file, autotuneValidationFile=test_data_file)#, autotuneDuration=18000) model.save_model(test_data_file+".avf")
結果還不錯
測試資料經過過濾後,其實有六成多的正確率。而且進去看看資料,你會發現標錯的部分都很有道理,甚至會覺得它標得很對啊…(抓頭)
沒有留言:
張貼留言