Emotion-LLaMA icon indicating copy to clipboard operation
Emotion-LLaMA copied to clipboard

MERR dataset

Open Cb1ock opened this issue 1 year ago • 32 comments

Hi author, thanks for your GREAT work !!!

Are you prepare to release the MERR dataset? How can we get it?

Cb1ock avatar Aug 05 '24 08:08 Cb1ock

Yes, you can download the MERR dataset by clicking the link in the MERR Dataset section of the README.

ZebangCheng avatar Aug 05 '24 15:08 ZebangCheng

作者您好,十分感谢您做的工作,通过您的自述文件下载的数据集可以直接用于模型预训练吗,不需要任何数据预处理了吗

cyq122 avatar Nov 03 '25 07:11 cyq122

作者您好,十分感谢您做的工作,通过您的自述文件下载的数据集可以直接用于模型预训练吗,不需要任何数据预处理了吗

我们在Google Driver上开源了相关的特征和配置文件,可以不进行任何数据预处理就可以进行复现。 但是,如果你需要 提取新的特征或者 想要尝试不同的方案,就需要 进行新的数据预处理。

ZebangCheng avatar Nov 03 '25 10:11 ZebangCheng

作者您好,十分感谢您做的工作,通过您的自述文件下载的数据集可以直接用于模型预训练吗,不需要任何数据预处理了吗

我们在Google Driver上开源了相关的特征和配置文件,可以不进行任何数据预处理就可以进行复现。 但是,如果你需要 提取新的特征或者 想要尝试不同的方案,就需要 进行新的数据预处理。

十分感谢作者的回复,是只需下载您分享的google driver中的特征及配置文件就可以用于训练了吗?如下数据文档

Image

cyq122 avatar Nov 04 '25 05:11 cyq122

是的,我们在google driver分享的内容是可以进行训练的,在训练时可能遇到的问题在别的issue里,我和其他研究者也讨论过,你可以多看看。 注意,你还需要按照教程去官网额外下载llama的官方开源权重,MiniGPT-v2的模型权重。

如果你训练遇到什么问题,可以咨询我们。

ZebangCheng avatar Nov 04 '25 05:11 ZebangCheng

是的,我们在google driver分享的内容是可以进行训练的,在训练时可能遇到的问题在别的issue里,我和其他研究者也讨论过,你可以多看看。 注意,你还需要按照教程去官网额外下载llama的官方开源权重,MiniGPT-v2的模型权重。

如果你训练遇到什么问题,可以咨询我们。

十分感谢作者的及时回复了

cyq122 avatar Nov 04 '25 05:11 cyq122

作者您好,我在您分享的google driver中没有找到video的文件,请问这个video是mer2023中的训练数据吗?

Image

cyq122 avatar Nov 04 '25 06:11 cyq122

作者您好,我在您分享的google driver中没有找到video的文件,请问这个video是mer2023中的训练数据吗?

MER2023或者其他数据的原始视频需要你去对应的数据集官网申请下载,我们没有数据集的权限,所以我们并不能分享原始的视频文件。

ZebangCheng avatar Nov 04 '25 07:11 ZebangCheng

Image 作者您好,在训练过程中,报错表明程序无法读取指定的视频文件,请问是下载图片中的train.zip文件即可还是全部下载,谢谢!

cyq122 avatar Nov 04 '25 12:11 cyq122

如果你需要重头到尾全部进行复现,那你是需要全部下载的。 如果你只是想复现我们论文中的结果,你可以只下载测试集相关内容。 为了你后续研究方便,建议还是全部下载吧。

ZebangCheng avatar Nov 04 '25 13:11 ZebangCheng

作者您好,为什么我从您提供的链接中下载的数据集大小都是0,且在训练过程中无法读取,求指导

cyq122 avatar Nov 06 '25 11:11 cyq122

作者您好,为什么我从您提供的链接中下载的数据集大小都是0,且在训练过程中无法读取,求指导

提供一下截图或者日志呢?你使用的是那个链接?想要下载的是什么?(视频还是特征) 我们没有数据的分发权限,要下载源视频只能去数据集对应的官网下载。

ZebangCheng avatar Nov 06 '25 11:11 ZebangCheng

下载的是mer2023train.zip的文件,里面的test3文件夹下的视频大小均为0,试了好几次都无法解决,不知道您有办法解决吗

Image

cyq122 avatar Nov 06 '25 12:11 cyq122

可以把遇到的问题描述清晰一点,这样更方便我们定位问题。

你是在hugging face上下载的吗?

https://huggingface.co/datasets/MERChallenge/MER2023

把所有文件都下载下来,一起解压试试:

Image

ZebangCheng avatar Nov 06 '25 14:11 ZebangCheng

可以把遇到的问题描述清晰一点,这样更方便我们定位问题。

你是在hugging face上下载的吗?

https://huggingface.co/datasets/MERChallenge/MER2023

把所有文件都下载下来,一起解压试试:

Image

其他都可以,就是在解压mer2023train.zip中的test3中的视频会发生如下图所示的错误,但是我输入的密码都是正确的,是否可以单独上传一下test3中的视频到hf中,看能否解决问题

Image

cyq122 avatar Nov 07 '25 05:11 cyq122

MER2023数据集不是我们的工作,是一个公开数据集,我们不能上传。我这边也尝试下载一下这个数据集,看看能否正常解压。如果存在上述问题,我尝试联系一下数据集官方,解决这个问题。

ZebangCheng avatar Nov 07 '25 07:11 ZebangCheng

MER2023数据集不是我们的工作,是一个公开数据集,我们不能上传。我这边也尝试下载一下这个数据集,看看能否正常解压。如果存在上述问题,我尝试联系一下数据集官方,解决这个问题。

十分感谢您的耐心解答,我再次尝试了一遍,上述mer2023train.zip中的test3文件依旧存在部分视频损坏、解压失败的问题,希望您能联系官方上传一下test3的数据集,谢谢!

cyq122 avatar Nov 07 '25 10:11 cyq122

我从hugging face上下载了MER2023数据集:

/data/czb/big_space/data/MERChallenge/MER2023$ ls
 calc_hash.sh  'mer2023test1&2.zip'   mer2023train.z01   mer2023train.z03   mer2023train.z05   mer2023train.zip        README.md
 MER2023.png    mer2023train_unzip    mer2023train.z02   mer2023train.z04   mer2023train.z06   README_AFTER_APPROVAL   test-labels.zip

当我使用unzip命令时,显示解压失败。

请使用7z进行解压:

/data/czb/big_space/data/MERChallenge/MER2023$ 7z x mer2023train.zip -o./mer2023train_unzip

7-Zip [64] 16.02 : Copyright (c) 1999-2016 Igor Pavlov : 2016-05-21
p7zip Version 16.02 (locale=zh_CN.UTF-8,Utf16=on,HugeFiles=on,64 bits,20 CPUs Intel(R) Core(TM) i9-10900X CPU @ 3.70GHz (50657),ASM,AES-NI)

Scanning the drive for archives:
1 file, 10785113893 bytes (11 GiB)

Extracting archive: mer2023train.zip
--
Path = mer2023train.zip
Type = zip
Physical Size = 10785113893
Embedded Stub Size = 4
64-bit = +
Total Physical Size = 139634132773
Multivolume = +
Volume Index = 6
Volumes = 7


Enter password (will not be echoed):
  5% 6057 - test3/samplenew_00003222.mp4

我查看解压的test3中的视频是正常的。如果是windows系统,请尝试下载7z相关的解压软件,进行解压文件。

ZebangCheng avatar Nov 08 '25 04:11 ZebangCheng

我从hugging face上下载了MER2023数据集:

/data/czb/big_space/data/MERChallenge/MER2023$ ls
 calc_hash.sh  'mer2023test1&2.zip'   mer2023train.z01   mer2023train.z03   mer2023train.z05   mer2023train.zip        README.md
 MER2023.png    mer2023train_unzip    mer2023train.z02   mer2023train.z04   mer2023train.z06   README_AFTER_APPROVAL   test-labels.zip

当我使用unzip命令时,显示解压失败。

请使用7z进行解压:

/data/czb/big_space/data/MERChallenge/MER2023$ 7z x mer2023train.zip -o./mer2023train_unzip

7-Zip [64] 16.02 : Copyright (c) 1999-2016 Igor Pavlov : 2016-05-21
p7zip Version 16.02 (locale=zh_CN.UTF-8,Utf16=on,HugeFiles=on,64 bits,20 CPUs Intel(R) Core(TM) i9-10900X CPU @ 3.70GHz (50657),ASM,AES-NI)

Scanning the drive for archives:
1 file, 10785113893 bytes (11 GiB)

Extracting archive: mer2023train.zip
--
Path = mer2023train.zip
Type = zip
Physical Size = 10785113893
Embedded Stub Size = 4
64-bit = +
Total Physical Size = 139634132773
Multivolume = +
Volume Index = 6
Volumes = 7


Enter password (will not be echoed):
  5% 6057 - test3/samplenew_00003222.mp4

我查看解压的test3中的视频是正常的。如果是windows系统,请尝试下载7z相关的解压软件,进行解压文件。

感谢,我已成功下载,但是出现下述报错No such file or directory: '/home/cyq/project/project_emotion-LLaMA/datasets/Emotion/MER2023/mae_340_UTT/samplenew_00036945.npy'

Image 我看了mae_340_UTT以及其他文件中的文件名,均未找到sampl enew_00036945.npy的文件,请问怎么解决

cyq122 avatar Nov 09 '25 12:11 cyq122

你的路径应该错了,请仔细检查文件名是project_emotion-LLaMA吗: '/home/cyq/project/project_emotion-LLaMA/datasets/Emotion/MER2023/mae_340_UTT/samplenew_00036945.npy'

应该修改为: '/home/cyq/project/Emotion-LLaMA/datasets/Emotion/MER2023/mae_340_UTT/samplenew_00036945.npy'

ZebangCheng avatar Nov 09 '25 14:11 ZebangCheng

我已经检查了我的路径,路径是正确的,我在Google driver中重新下载了文件,但是根据粗粒度标注文档,我无法在video文件夹中找到对应id的视频文件,并且在训练过程中也频繁报错。我想知道video文件夹中的内容是直接存放视频还是子文件夹。如下图所示。谢谢

Image

cyq122 avatar Nov 10 '25 05:11 cyq122

我已经检查了我的路径,路径是正确的,我在Google driver中重新下载了文件,但是根据粗粒度标注文档,我无法在video文件夹中找到对应id的视频文件,并且在训练过程中也频繁报错。我想知道video文件夹中的内容是直接存放视频还是子文件夹。如下图所示。谢谢

Image

例如在MERR_coarse_grained.txt文档中有id为sample_00006715,但是在特征文件中既存在sample_00006715,又存在samplenew_00006715;并且在vedio文件夹中仅在samplenew_00006715的视频。因此在预训练过程中会出现找不到sample_0006715视频文件的报错。请问该如何解决

Image

cyq122 avatar Nov 10 '25 06:11 cyq122

我已经检查了我的路径,路径是正确的,我在Google driver中重新下载了文件,但是根据粗粒度标注文档,我无法在video文件夹中找到对应id的视频文件,并且在训练过程中也频繁报错。我想知道video文件夹中的内容是直接存放视频还是子文件夹。如下图所示。谢谢

Image

我们是把所有视频都放在video文件目录。即video文件夹中的内容是直接存放视频。但是这个视频的存储是很灵活的,你只需要简单的修改视频读取代码,添加不同子文件夹的文件名就可以找到你现在文件目录结构中的视频。

ZebangCheng avatar Nov 10 '25 06:11 ZebangCheng

例如在MERR_coarse_grained.txt文档中有id为sample_00006715,但是在特征文件中既存在sample_00006715,又存在samplenew_00006715;并且在vedio文件夹中仅在samplenew_00006715的视频。因此在预训练过程中会出现找不到sample_0006715视频文件的报错。请问该如何解决

首先,sample_00006715和samplenew_00006715是两个样本,完全没有管理。只是数据集官方在数据标注时巧合标注名字类似的样本。 然后,你现在核心的问题的就是文件里面检查有视频,但是运行代码提示“sample_0006715视频文件的报错”那就是你文件路径写错了。请你在加载数据相关代码之前print一些,看看实际要加载的视频路径是什么,然后再去对应的文件下检查是否存在对应的视频。

ZebangCheng avatar Nov 10 '25 06:11 ZebangCheng

例如在MERR_coarse_grained.txt文档中有id为sample_00006715,但是在特征文件中既存在sample_00006715,又存在samplenew_00006715;并且在vedio文件夹中仅在samplenew_00006715的视频。因此在预训练过程中会出现找不到sample_0006715视频文件的报错。请问该如何解决

首先,sample_00006715和samplenew_00006715是两个样本,完全没有管理。只是数据集官方在数据标注时巧合标注名字类似的样本。 然后,你现在核心的问题的就是文件里面检查有视频,但是运行代码提示“sample_0006715视频文件的报错”那就是你文件路径写错了。请你在加载数据相关代码之前print一些,看看实际要加载的视频路径是什么,然后再去对应的文件下检查是否存在对应的视频。

首先十分感谢您的回复,我已经确认了不是路径的问题,在源视频数据集中查找了相关视频也未找到,如下图所示

Image Image Image

cyq122 avatar Nov 10 '25 09:11 cyq122

Image

例如在MERR_coarse_grained.txt文档中有id为sample_00006715,但是在特征文件中既存在sample_00006715,又存在samplenew_00006715;并且在vedio文件夹中仅在samplenew_00006715的视频。因此在预训练过程中会出现找不到sample_0006715视频文件的报错。请问该如何解决

首先,sample_00006715和samplenew_00006715是两个样本,完全没有管理。只是数据集官方在数据标注时巧合标注名字类似的样本。 然后,你现在核心的问题的就是文件里面检查有视频,但是运行代码提示“sample_0006715视频文件的报错”那就是你文件路径写错了。请你在加载数据相关代码之前print一些,看看实际要加载的视频路径是什么,然后再去对应的文件下检查是否存在对应的视频。

我发现了问题,test3原始数据集和我下载的test3数据集视频数量不一致,请问有什么办法解决,还是说重新下载查看

cyq122 avatar Nov 10 '25 09:11 cyq122

可以通过MER2023数据集官方提供hash值进行检验下载的压缩包文件是否正确:

sha256sum mer2023train.z* mer2023train.zip mer2023test1&2.zip test-labels.zip

74cf8c0093543d068c78f1d8829ecadddfe2a381185ce290f9f2cecacc131afd  mer2023test1&2.zip
57cc39043f5c5e8169f58ae43662955b47f28f37d8bf4393525b739c4c03a7a4  mer2023train.zip
a3ad0518053b31e7b1f53bc659652fdacaea1ef34224516d384833888effc8fe  test-labels.zip
adb58496783306fd1b075db1944ee380b014be0b716c949affbc97133e697b19  mer2023train.z01
34e82004029c6cbdacc958395f4a95a39907f4d454f4ed65bef3261c77a11697  mer2023train.z02
321eb3a2749cf1fb7622a27e577af5615e60812021c25e93a5fb078a5c147394  mer2023train.z03
4045d89f1b4cc15677dfd53ac79a7c63a2b093e3f683e4da3030459acbecfaee  mer2023train.z04
742fc19c0f9f9e4a0b663ca8ce8a187d0cb85c284f15bea04ad8d76ee5f7a9d1  mer2023train.z05
34b0523cdbf4c715ba9b7a5d18d79d2bbec0fcd391cc620f73cb11bed85ead99  mer2023train.z06

如果压缩包的hash值对不上,那就是下载的时候网络出问题了,只能重新下载。

ZebangCheng avatar Nov 10 '25 11:11 ZebangCheng

可以通过MER2023数据集官方提供hash值进行检验下载的压缩包文件是否正确:

sha256sum mer2023train.z* mer2023train.zip mer2023test1&2.zip test-labels.zip

74cf8c0093543d068c78f1d8829ecadddfe2a381185ce290f9f2cecacc131afd  mer2023test1&2.zip
57cc39043f5c5e8169f58ae43662955b47f28f37d8bf4393525b739c4c03a7a4  mer2023train.zip
a3ad0518053b31e7b1f53bc659652fdacaea1ef34224516d384833888effc8fe  test-labels.zip
adb58496783306fd1b075db1944ee380b014be0b716c949affbc97133e697b19  mer2023train.z01
34e82004029c6cbdacc958395f4a95a39907f4d454f4ed65bef3261c77a11697  mer2023train.z02
321eb3a2749cf1fb7622a27e577af5615e60812021c25e93a5fb078a5c147394  mer2023train.z03
4045d89f1b4cc15677dfd53ac79a7c63a2b093e3f683e4da3030459acbecfaee  mer2023train.z04
742fc19c0f9f9e4a0b663ca8ce8a187d0cb85c284f15bea04ad8d76ee5f7a9d1  mer2023train.z05
34b0523cdbf4c715ba9b7a5d18d79d2bbec0fcd391cc620f73cb11bed85ead99  mer2023train.z06

如果压缩包的hash值对不上,那就是下载的时候网络出问题了,只能重新下载。

十分感谢作者的耐心指导,现在已经成功完成了第一阶段的预训练,请问使用的检查点是否有讲究,我看您的训练文档上是最后一个检查点,如果我使用其他检查点是否有影响,谢谢

cyq122 avatar Nov 12 '25 02:11 cyq122

如果只是学习项目代码,建议直接使用最后的检查点,进行测试和demo体验。后续为了提升模型性能,或者尝试创新时,可以考虑多测试不同的检查点,选择效果最好的进行后续操作。相关内容我们在其他issue上也进行讨论过,感兴趣可以查阅。

如下项目对你有帮助,可以帮忙star一下(˵¯͒〰¯͒˵)。

ZebangCheng avatar Nov 12 '25 03:11 ZebangCheng

如果只是学习项目代码,建议直接使用最后的检查点,进行测试和demo体验。后续为了提升模型性能,或者尝试创新时,可以考虑多测试不同的检查点,选择效果最好的进行后续操作。相关内容我们在其他issue上也进行讨论过,感兴趣可以查阅。

如下项目对你有帮助,可以帮忙star一下(˵¯͒〰¯͒˵)。

感谢您的一路帮助,已star

cyq122 avatar Nov 12 '25 04:11 cyq122