Chengyu Ma
Chengyu Ma
这是因为 `conds = conds.transpose(1, 2)` 会产生非连续 tensor,在输入 TRT 之前加一行 `cond=cond.contiguous()` 就可以解决。
> > 这是因为 `conds = conds.transpose(1, 2)` 会产生非连续 tensor,在输入 TRT 之前加一行 `cond=cond.contiguous()` 就可以解决x x z z > > 大佬请问你遇到过这个问题吗:加入tensorrt后,会出现一些case flow之后出来静音(tensor为nan),当固定ar token,不使用flow tensor rt便可以出来正确的结果。 我也遇到过这个问题,是因为有的中间结果fp16溢出了,TRT改用bf16可以解决
> 是服务端卡住了么? 针对 vlm 模型,如果开启 tp 模式,建议使用 pytorch engine,即 --backend pytorch。turbomind在这种case下,有卡住风险。我们还在想办法解决。 @lvhan028 请问turbomind会卡住是什么原因?