yjzhong89

Results 1 issues of yjzhong89

请问一下,我在使用megatron对InternViT进行TP拆分时,发现num_attention_heads=25,这个数值无法被2的倍数整除,这个数值当初在设计时是怎么考虑的呢?是否可以替换成其他数值,比如24?