Yeongjae Jang
Yeongjae Jang
  Dear @kyegomez, First of all, excuse me for my awkward English. In `forward()`, I think using `zip` implies `depth == transformer_depth == mamba_depth`. Hence, instead of using `transformer_depth`...
안녕하세요, 몇 번에 더 나누어서 했으면 좋았을텐데 적은 수로 commit을 진행하게 되어 우선 실례한다는 말씀부터 드리고 싶습니다. - HTML 코드의 줄넘김 - `.format()` 대신에 f-string의 사용 - 몇몇 static method의...
PR 실수 실례합니다. 약간의 내용 추가를 진행했습니다. 확인 부탁드립니다.
## Summary Fixed frequency calculations for RoPE (YaRN) scaling and correct range finding. ## Description Greetings: This PR corrects the mathematical formulation of the [YaRN](https://arxiv.org/abs/2309.00071) RoPE scaling. I have verified...