Lalita Lowphansirikul
Lalita Lowphansirikul
[WIP] ### 2. Finetuning scripts List of files to refactor #### 1. Multiclass and Multilabel Sequence Classification Finetuning scripts __Path__: `./scripts/downstream/train_sequence_classification_lm_finetuning.py` __Branch name__: `refactor/scripts/lm_finetune_for_seq_cls` __Unittest__: `./tests/test_finetuner_seq_cls.py` __Todo:__ - [ ]...
สวัสดีค่ะ คุณ @peune, กรณี RuntimeError ดังกล่าว เกิดขึ้นเพราะ จำนวน tokens (รวม special tokens เช่น \, \) มีจำนวนเกิดน 510 tokens (ซึ่งเป็นข้อจำนวนของ architecture ประเภท transformer encoder) สำหรับวิธีการแก้ไขโดยเบื้องต้นคือการทำ text truncation ให้ sequence ที่ส่งเข้าไปที่โมเดลมีจำนวนไม่เกินที่กำหนด โดยการระบุ...
สวัสดีค่ะ คุณ @peune, ต้องขออภัยสำหรับการตอบที่ช้านะคะ สำหรับ accuracy ที่ไม่ตรงนี้ จะเกิดจาก บรรทัดต่อไปนี้นะคะ ```python processed_input_text_truncated = ''.join(tokenizer.tokenize(processed_input_text)[0:508]).replace('_', '') ``` โดยที่เป็นเพราะ symbol `_` (underscore, U+5F) จะต้องแก้ไขเป็น `▁` (U+2581) แทนนะคะ สำหรับ symbol ▁ จะถูกใช้ใน SentencePiece เพื่อบ่งบอกว่ามี...