Wuyingwen

Results 5 comments of Wuyingwen

maybe you need to update your gcc version, this could solve this problem.

您好,我们测试了您提供的 CUDA_VISIBLE_DEVICES=0 swift infer --model_type minicpm-v-v2_6-chat --model_id_or_path openbmb/MiniCPM-V-2_6 以及 video测试代码。发现对视频的测试结果,似乎只依赖于视频第一帧。我们尝试了多次对视频OCR的提取,结果显示都只会输出第一帧的OCR结果。请问能提供具体的测试代码(.py文件)地址么?我们想check一下数据处理的部分,是否只读取了视频第一帧的信息。

在训练代码 train.py 开始训练前打印训练参数,其中包含下列项: transformer.mm_projector.image_spatial_proj.0.weight transformer.mm_projector.image_spatial_proj.0.bias transformer.mm_projector.image_spatial_proj.2.weight transformer.mm_projector.image_spatial_proj.2.bias

you can copy the following code into corresponding transformer libarary to solve the problem def _expand_mask(mask: torch.Tensor, dtype: torch.dtype, tgt_len: Optional[int] = None): bsz, src_len = mask.size() tgt_len = tgt_len...