LGDchampion comments

Results 4 comments of


                                            LGDchampion

使用自定义数据和模型报错

我想使用自己的数据集和构建模型进行使用BERT模型进行文本分类任务的水平联邦训练。根据教程文档，我重载了Dataset类，用nn.Module类写了模型，然后使用接口 trainer = FedAVGTrainer(epochs=2, batch_size=64, shuffle=True, data_loader_worker=8, pin_memory=False) trainer.local_mode() trainer.train(train_set=dataset, optimizer=optimizer, loss=loss) 可以成功训练。

使用自定义数据和模型报错

但根据教程Submit a Homo-NN Task with Custom Model进行单机版模拟联邦学习时就报错。在执行pipeline.fit()时报错： ValueError: Job is failed, please check out job 202311140705437026950 by fate board or fate_flow cli 我尝试了把重载Dataset类的文件放在/data/projects/fate/fate/python/federatedml/nn/dataset 把定义模型类的文件放在/data/projects/fate/fate/python/federatedml/nn/model_zoo 然后通过这种形式读取数据： fate_project_path = os.path.abspath('./') data_0...

使用自定义数据和模型报错

| ERROR | __main__::206 - An error has been caught in function '', process 'MainProcess' (962511), thread 'MainThread' (140265679853376): Traceback (most recent call last): > File "fate_bert_namespace.py", line 206, in...

使用自定义数据和模型报错

之前错误查到了是bert预训练模型路径写错了现在修改以后，日志能显示完成训练了设定的epoch，但随后显示socket错误 1 [ERROR] [2023-11-29 01:23:41,868] [202311290103155381610] [467339:140703877306176] - [task_executor._run_] [line:266]: HTTPConnectionPool(host='xxx.xxx.xxx.xxx', port=9380): Read timed out. (read timeout=30.0) 2 Traceback (most recent call last): 3 File "/data/projects/fate/env/python/venv/lib/python3.8/site-packages/urllib3/connectionpool.py", line 445, in...