llm_interview_note
llm_interview_note copied to clipboard
MHA_MQA_GQA代码
总结的很好,有一个小问题
if attention_mask != None:
attention_scores += attention_mask * -1e-9
这里这个值应该是-1e9