Ouyang Wen
Ouyang Wen
你使用的是哪个分支,spark是哪个版本,用最新的0.2.1分支试下
> pytorch-on-angel用的是master的,spark是2.4.5U2,我们用的是纯cpu环境 用0.2.1分支,angel环境用3.1.0的
> angel现在用的也是master的,那个就是3.1.0的吧??还是非得下载branch3.1.0 master就可以了
> ## 这个classnotfound的问题已经解决了~我现在遇到了新的问题~ > Exception in thread "main" java.lang.UnsatisfiedLinkError: no torch_angel in java.library.path > > 我给的参数如下: > input=hdfs://jinrong-hadoop3-1v/home/hdp-jinrong-stargraph/fanqizha/subgraph/input/20191231/ > output=hdfs://jinrong-hadoop3-1v/home/hdp-jinrong-stargraph/jiadongxue/angel/model/20191231_deepfm/ > source ./spark-on-angel-env.sh > echo "------------------" > #JAVA_LIBRARY_PATH=/home/work/software/java/lib > JAVA_LIBRARY_PATH=/home/work/software/angel/lib:/home/work/software/java/lib...
你spark用yarn-cluster模式提交试试呢
你这个torchlib.zip压缩包解压的目录结构是什么样的
> torchlib.zip解压开是lib目录,lib下是很多.a文件 >  你可以在RecommendationExample里面把当前目录打印下看看吗,看有没有torch/lib
> 你好,我最后把集群所有节点环境都配置了一下。yarn-client模式就可以用了。但是偶尔会报这个错,是什么原因导致的呢。 > > ``` > 21/01/13 13:07:37 INFO Client: Application report for application_1609301285435_0588 (state: ACCEPTED) > 21/01/13 13:07:38 INFO Client: Application report for application_1609301285435_0588 (state: ACCEPTED) > 21/01/13 13:07:39...
查看具体的出错的ps ParameterServer_0的日志:查看方法参考文档:https://github.com/Angel-ML/angel/wiki/%E5%B7%A5%E7%A8%8B%E5%B8%B8%E8%A7%81%E9%97%AE%E9%A2%98
 当前master版本依赖angel 3.2.0