GPT-2 應用於輸入關鍵字來產生一篇中文的文章、文言文、對聯、詩詞、中文歌詞。
[操作步驟及說明]
主要流程為:
準備訓練資料 -> 訓練 -> 產生文章
資料準備:
解決方案的訓練資料準備分成兩種,
如果是短篇文章、文言文、對聯、詩詞、中文歌詞.......等,較短的文體,請將文章格式整理成以下例子,並將檔案命名為 train.json,存到 data 資料夾中。
文章格式範例:
範例1:["文章1", "文章2","文章3"]
範例2:["文言文1", "文言文2","文言文3","文言文4"]
如果是長篇文章,請將文章格式整理成以下例子,並將檔案命名為 train2.json,存到 data 資料夾中。
文章格式範例:
範例1:["一整篇長文章"]
範例2:["一整部神鵰俠侶"]
1. 1_delete_log.ipynb
刪除 log 檔資料夾。
2. 2_train_single.ipynb 或 2_train.ipynb
2_train.ipynb 主要用於訓練短篇文章、文言文、對聯、詩詞、中文歌詞 ...... 等,這裡使用的範例為許眾多維基百科內容進行訓練。
2_train_single.ipynb 主要用於訓練長篇文章,這裡使用金庸小說的其中一部進行訓練。
參數說明:
device: 使用 GPU 訓練,如果要使用兩顆 GPU,將 "0" 改成 "0,1"。
trainDataTxtPath: 訓練檔案路徑。
epochs: 訓練幾輪。
pretrained_model: 預訓練模型路型,若不使用則改成 pretrained_model = ''。
3. 3_kill_tensorboard.ipynb
在使用 tensorboard 之前,先關閉舊有的 tensorboard 。
4. 4_tensorboard.ipynb
開啟 tensorboard 查看訓練狀況。
看完訓練狀況後請再次執行 3_kill_tensorboard.ipynb,關閉 tensorboard。
5. 5_generate.ipynb
使用模型產生文章。
參數說明:
device: 使用多少 GPU ,如果要使用兩顆 GPU,將 "0" 改成 "0,1"。
grammarType: 使用哪種模型產生文章,繁體有繁體中文模型、金庸模型;簡體有通用中文小模型、文言文模型、對聯模型、通用中文模型、詩詞模型、中文歌詞模型。
length : 產生多少字的文章,例如多少字的繁體文章、多少字的中文歌詞......。
sampleNumber: 產生多少篇範例。
keyword: 輸入關鍵字作為開頭來產生文章。
這個 SDK 內建於 AppForAI 人工智慧開發工具。
單獨購買價格:5,000元,永久授權,單一 SDK 授權,單機授權,一次下載,無更新服務,一年電子郵件範例諮詢服務。如果是軟體客製化問題,請購買我們的客製化顧問服務點數。