WuDiDaBinGe

Results 6 issues of WuDiDaBinGe

在使用 nn.DistributedDataParallel 时,模型会被复制到所有使用的GPU,通常每个GPU上存有一个模型,并被一个单独的进程控制。这样有N块GPU,就会产生N个进程。当训练一个batch时,这一batch会被分为N份,每个进程会使用batch的一部分进行训练,然后在必要时进行同步,并通过网络传输需要同步的数据。 教程中这段话中“当训练一个batch时,这一batch会被分为N份,每个进程会使用batch的一部分进行训练,然后在必要时进行同步,并通过网络传输需要同步的数据。”我觉得不是这样。谈谈自己的理解:我觉得 pytorch的DDP多卡分发数据的时候应该是将Dataset分成N份,然后每个进程从自己分到的数据中抽取batch size进行训练。 不知道这样理解是不是对的。

Iter (loss= nan) lr=0.0001875: 0%| | 5/60000 [00:09

文章中说学习率最大6.25e-5,noam schedule更小,要用这么小的学习率吗?

``` java.lang.OutOfMemoryError: Java heap space at com.carrotsearch.hppc.Internals.newArray(Internals.java:37) at com.carrotsearch.hppc.IntObjectOpenHashMap.allocateBuffers(IntObjectOpenHashMap.java:364) at com.carrotsearch.hppc.IntObjectOpenHashMap.expandAndPut(IntObjectOpenHashMap.java:318) at com.carrotsearch.hppc.IntObjectOpenHashMap.put(IntObjectOpenHashMap.java:194) at org.aksw.palmetto.corpus.lucene.WindowSupportingLuceneCorpusAdapter.requestDocumentsWithWord(WindowSupportingLuceneCorpusAdapter.java:124) at org.aksw.palmetto.corpus.lucene.WindowSupportingLuceneCorpusAdapter.requestWordPositionsInDocuments(WindowSupportingLuceneCorpusAdapter.java:102) at org.aksw.palmetto.prob.window.BooleanSlidingWindowFrequencyDeterminer.determineCounts(BooleanSlidingWindowFrequencyDeterminer.java:54) at org.aksw.palmetto.prob.window.BooleanSlidingWindowFrequencyDeterminer.determineCounts(BooleanSlidingWindowFrequencyDeterminer.java:45) at org.aksw.palmetto.prob.AbstractProbabilitySupplier.getProbabilities(AbstractProbabilitySupplier.java:37) at org.aksw.palmetto.DirectConfirmationBasedCoherence.calculateCoherences(DirectConfirmationBasedCoherence.java:87) at org.aksw.palmetto.webapp.PalmettoApplication.calculate(PalmettoApplication.java:198) at org.aksw.palmetto.webapp.PalmettoApplication.npmiService(PalmettoApplication.java:111) at...

最近我按照您的代码实现思路,我复现了一下论文中的模型,有几个问题想请教您: 1.不知道您是否增加试验过增加epoch,实验中我epoch=3000左右的时候Dsicrimimator_loss已经收敛,但是encoder和generator的loss我训练到20K的时候两者还未收敛? 2.topic words分布刚开始不是很好,会出现很多主题下有相同的词,但是在可能10Kepoch后有了效果。 希望能和您进一步讨论 感谢~