Jpy5
Jpy5
Figure a in Figure 1 shows the decision boundary without Rs, and Figure b shows the decision boundary with Rs.But it gives me the feeling that the decision boundary of...
Hi, first of all thank you for your excellent work I found that freelb uses a lot of detach operations, which will detach delta.grad, delta_norm, and delta. I know that...
很多图挂了
单机多卡
您好~ 在使用unif的过程中,对下面这个函数有点疑惑,您用空的时候看看哈~ 如下函数求梯度的平均值时,如果grad是IndexedSlices类型的话,对value求平均,而indices则取第一个grad的indices; 感觉每个grad的indices是不一样的,假如是四卡的情况,一个batch被分成四分,其数据是不一样的,那取得应该是embedding_table矩阵的不同行; 这样的话,直接取第一个grad的indices作为indices感觉漏掉了embedding_table里一些参数的梯度;这里的value直接取平均的话,意思是把embedding_table里不同batch里的不同行的梯度值进行平均,感觉是不同参数的梯度值取了平均,直觉上是相同参数的梯度值取平均,所以感觉有些奇怪。看网上有的单机多卡的梯度平均实现是,不管是不是IndexedSlices类型,都直接用tf.divide(tf.add_n(split_grads), len(split_grads))来求平均,也不知道这样能解决我说的疑惑嘛? https://github.com/geyingli/unif/blob/master/uf/utils.py#L748 ``` def average_n_grads(split_grads): split_grads = [grad for grad in split_grads if grad is not None] # Dealing with IndexedSlices for large-dimensional embedding #...
对抗训练
作者您好, with tf.control_dependencies([init_op]): # fix perturbation # Scale randomly initialized permutation, to make sure norm # of r is smaller than epsilon. shape = tf.cast(np.prod(init_r.shape.as_list()), tf.float32) r = tf.divide(init_r, tf.sqrt(shape))...
看到作者在跑英文的结果时,有用到NUCLE数据集,但是NUCLE官网申请一直500,获取不到数据集,想请问作者是从哪得到这份数据的呀?感谢!
环境:liunx 问题描述: 我和其他issue遇到了同样的问题,在运行几分钟后,最终会在controller中报出错误,Error: Worker not responding 我给启动task的docker命令里加了-it,并把docker中的输出打印了出来,发现会卡在returning处,如下图 辛苦有空检查下这个任务是否能够正常运行 配置: start_task.yaml ``` definition: import: tasks/task_assembly.yaml start: cg-std: 1 ``` default.yaml ``` import: definition.yaml concurrency: task: cg-std: 1 agent: gpt-3.5-turbo-0613: 1 assignments:...