Taiwan-LLM icon indicating copy to clipboard operation
Taiwan-LLM copied to clipboard

The process of RLHF and reward modeling

Open joshhu opened this issue 11 months ago • 1 comments

這個模型是從llama2 SFT出來的話,看llama2的論文似乎llama2並沒有經過RLHF(llama2-chat有),請問Taiwan llama2有經過RLHF的訓練嗎?如果沒有的話,有關繁體中文的對齊,可以使用RLHF來進行,而非SFT。至於comparison的資料集,可以考慮用ChatGPT來產生,這樣不知有沒有試過,謝謝 image

joshhu avatar Mar 14 '24 09:03 joshhu