tensorflow-ml-nlp-tf2 icon indicating copy to clipboard operation
tensorflow-ml-nlp-tf2 copied to clipboard

7.2.1.bert_finetune_NSMC.ipynb에서 오류가 발생하는 부분이 있네요

Open keepselvesreal opened this issue 3 years ago • 2 comments

9번 셀에서 훈련 데이터를 전처리할 때 원래대로 하면 다음과 같은 오류가 발생했습니다. Truncation was not explicitely activated but max_length is provided a specific value, please use truncation=True to explicitely truncate examples to max length. Defaulting to 'only_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you may want to check this is the right behavior. I know, this warning asks to provide truncation value.

8번 셀에서 tokenizer.encode_plus( )안에 truncation=True를 추가하니 원래대로 작동하네요

헛 근데 이렇게 하면 정확도(0.4965)가 거의 반토막 나네요 ㅜㅜ

keepselvesreal avatar May 25 '22 08:05 keepselvesreal

안녕하세요. 답변이 늦어져 죄송합니다. 혹시 실습하신 장 또는 코드위치를 정확히 알려주시면 도움을 드릴 수 있을 것 같습니다.

Taekyoon avatar Sep 12 '22 07:09 Taekyoon

image 위 코드에 해당하는 것처럼 보이는데, 저 같은 경우는 truncation=True를 하고도 정상 학습이 되었습니다. image

DonghaeSuh avatar Sep 20 '22 14:09 DonghaeSuh

안녕하세요 .

https://github.com/NLP-kr/tensorflow-ml-nlp-tf2-colab/blob/master/7.PRETRAIN_METHOD/7.2.1.bert_finetune_NSMC.ipynb

위에 소스로 심플하게 테스트 해보았습니다. 책에서 사용하는 도커 환경 그리고 해당 데이터를 사용했다면 이슈가 없어 보이긴 하며

올려주신 텍스트 내용을 보니 max length의 크기로 인해서 텍스트가 잘려야 하는 상황으로 보입니다.

현재 책은 EDA를 통해서 39로 셋팅하고 있으나 해당 값을 조정하면서 데이터 셋에 맞게 학습 해보시길 추천 드립니다.

좋은 하루 되세요 .

changwookjun avatar Nov 08 '22 00:11 changwookjun

완료 처리합니다.

changwookjun avatar Nov 08 '22 00:11 changwookjun

안녕하세요~ 답이 너무 늦어 죄송합니다 >< 별 문제 없이 코드가 돌아간다는 다른 분의 답변을 보고 한 번 더 코드를 실행해본 후에 말씀을 드리려고 했는데, 깜빡했네요 ^^;; 이 메일이 제가 주로 쓰는 메일이 아니라 메일 답도 늦었고요.. 책의 도커 환경과 max_length 크기 유념하며 다시 찬찬히 실습해보겠습니다.

많이 바쁘실 텐데 테스트와 따로 메일까지 주셔서 너무 감사드립니다. 좋은 책 만들어주셔서도 감사드리고요!

-----Original Message----- From: @.> To: @.>; Cc: @.>; @.>; Sent: 2022-11-08 (화) 09:18:32 (GMT+09:00) Subject: Re: [NLP-kr/tensorflow-ml-nlp-tf2] 7.2.1.bert_finetune_NSMC.ipynb에서 오류가 발생하는 부분이 있네요 (Issue #33)

안녕하세요 . https://github.com/NLP-kr/tensorflow-ml-nlp-tf2-colab/blob/master/7.PRETRAIN_METHOD/7.2.1.bert_finetune_NSMC.ipynb 위에 소스로 심플하게 테스트 해보았습니다. 책에서 사용하는 도커 환경 그리고 해당 데이터를 사용했다면 이슈가 없어 보이긴 하며 올려주신 텍스트 내용을 보니 max length의 크기로 인해서 텍스트가 잘려야 하는 상황으로 보입니다. 현재 책은 EDA를 통해서 39로 셋팅하고 있으나 해당 값을 조정하면서 데이터 셋에 맞게 학습 해보시길 추천 드립니다. 좋은 하루 되세요 . — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

keepselvesreal avatar Nov 14 '22 08:11 keepselvesreal