LDA4j Inference新文档中有生单词问题

首先感谢hankcs博主的分享，在使用LDA4j的过程中，我重写了Corpus类里的load和loadDocument方法，从数据库中读写数据测试成功。但是测试的过程中遇到了一个问题，就是先用训练集训练出来phi，然后拿来一个新文档使用这个phi推断其概率分布发现报数组越界的错误，我初步调试发现一旦新文档中包含训练集中没有的生单词，你写的Inference便无法使用，这个问题希望博主能进行一下异常处理。

Jun 05 '17 13:06 woohaoshu

我好久没看这段代码了，凭记忆回答一下。

这是因为主题模型中的Vocabulary在训练后就是个固定的结构，如果你拿A语料上训练的phi矩阵去B语料上用，那么你得用A的Vocabulary去B语料取id。

Jun 06 '17 13:06 hankcs

好的，我理解了，非常感谢你的代码！我参考它完成了我的本科毕业设计，或许将来我在读研期间会再次使用并完善这部分内容。

2017-06-06 21:37 GMT+08:00 hankcs [email protected]:

我好久没看这段代码了，凭记忆回答一下。

这是因为主题模型中的Vocabulary在训练后就是个固定的结构，如果你拿A语料上训练的phi矩阵去B语料上用，那么你得用A的Vocabulary去B语料取id。

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub https://github.com/hankcs/LDA4j/issues/6#issuecomment-306488510, or mute the thread https://github.com/notifications/unsubscribe-auth/AZFFn7VHyQPFqKJ8EvNgirZRN-o8XZVHks5sBVYogaJpZM4NwC-d .

Jun 13 '17 02:06 woohaoshu