Familia icon indicating copy to clipboard operation
Familia copied to clipboard

你好。我想问下familia在输入文本预测主题时的分词是直接采用vocab.txt的词表进行匹配分词的吗

Open poppybrown opened this issue 3 years ago • 2 comments

poppybrown avatar Jul 28 '20 01:07 poppybrown

是的。在C++版本的代码中,我们使用简单的最大前向匹配进行分词,直接按照vocab.txt中的词典进行匹配。

另外,PaddleHub 1.8版本上线了LDA模型的使用,使用起来很简单,具体可见:https://www.paddlepaddle.org.cn/hublist?filter=en_category&value=SemanticModel

PaddleHub中的分词使用自带的LAC分词器分词后,再与词典进行匹配。

DesmonDay avatar Jul 29 '20 11:07 DesmonDay

是的。在C++版本的代码中,我们使用简单的最大前向匹配进行分词,直接按照vocab.txt中的词典进行匹配。

另外,PaddleHub 1.8版本上线了LDA模型的使用,使用起来很简单,具体可见:https://www.paddlepaddle.org.cn/hublist?filter=en_category&value=SemanticModel

PaddleHub中的分词使用自带的LAC分词器分词后,再与词典进行匹配。

你好,那这样子其实用lda做关键词提取时,对于lac分完的词如果没有出现在词表里,是不是也无法提取出来?

poppybrown avatar Nov 26 '20 11:11 poppybrown