KcBERT
KcBERT copied to clipboard
๐ค Pretrained BERT model & WordPiece tokenizer trained on Korean Comments ํ๊ตญ์ด ๋๊ธ๋ก ํ๋ฆฌํธ๋ ์ด๋ํ BERT ๋ชจ๋ธ๊ณผ ๋ฐ์ดํฐ์
์๋ ํ์ธ์! ์ฝํผ์ค ๋ฐ ์ฝ๋๋ฅผ ๊ณต๊ฐํด์ฃผ์ ์ ์ ๋ง ๊ฐ์ฌํฉ๋๋ค. ๊ณต๊ฐํด์ฃผ์ ์ฝํผ์ค๋ก KcBERT๋ฅผ ์ง์ ํ๋ฒ ๋ง๋ค์ด ๋ณด๋ ค๊ณ ํ๋๋ฐ์. BERT ๊ณต์ github(https://github.com/google-research/bert)์ pre-training ์ค๋ช ์ ๋ฐ๋ฅด๋ฉด | Here's how to run the data generation. The...
์๋ ํ์ธ์! ์ข์ ๋ชจ๋ธ๊ณผ ์ฝ๋๋ฅผ ์ด์ด์ฃผ์ ์ ๊ฐ์ฌํฉ๋๋ค. ๋ค๋ฆ์ด ์๋๋ผ ์ ๊ฐ https://beomi.github.io/2021/03/15/KcBERT-MLM-Finetune/ ์ด ์ฌ์ดํธ์ ๋์์๋๋ฐ๋ก ์ถ๊ฐ ํ์ต์ ํ์๋๋ฐ ์ ๋๋ฉ์ธ์ ๋ง๋ ๋ฐ์ดํฐ [mask] ์์ธก์ ์ ํ์ง ๋ชปํ๋ ๊ฒ ๊ฐ์์, vocab.txt๋ฅผ ์ ํ์ต...