2021-dialogue-summary-competition 안녕하세요 긴 대화문 요약에 대해 질문드립니다.

안녕하세요. 테스트 코드를 통해 조금 긴 대화문의 요약을 실행하면 -> [2233] return torch.embedding(weight, input, padding_idx, scale_grad_by_freq, sparse)

IndexError: index out of range in self

와 같은 에러가 나옵니다. 혹시 긴 대화문의 요약을 위해서 조정해야할 부분이 있을까요?

Feb 06 '24 06:02 Daeinbangue

예시에는 tokenizer에 truncation 옵션이 없었네요. tokenizer에 최근대화를 살릴지 과거 대화를 살릴 지에 따라서 truncation_side를 조정하신 뒤에 max length에 맞춰서 tokenize할 때 truncation을 해주시면 될 겁니다! 저 오류 자체는 아마 position_id가 max_length를 넘어가서 일어나는 문제 같은데 position_id를 늘리면 추론은 할 수야 있겠지만 어차피 학습했던 max_length보다 길게 주면 성능이 보존이 안될거라서 큰 의미를 없을 텐데 만약에 추가적으로 finetuning을 하실 거면 모델에서 position id를 늘려주시면 될 겁니다.

Feb 08 '24 09:02 cosmoquester

답변 감사합니다. fine tuning으로 해결하였습니다. 이제 추가 학습을 하려고 하는데, 혹시 torchmetric 버전이 몇이신가요?

Feb 15 '24 11:02 Daeinbangue

음 torchmetrics는 버전을 잘 모르겠네요. 근데 lightning을 설치하시면 의존성에 들어있어서 적절하게 설치가 될 겁니다!

Feb 21 '24 05:02 cosmoquester