hankcs
hankcs
Chrome crashes too, even when SIP is disabled.
@kelvin-jiang Could you provide a mapping from mid to its name? `m.03_bjc` seems to an invalid id. Many ids in `FreebaseQA_fb_extract.txt` are not found in [Freebase/Wikidata Mappings](https://developers.google.com/freebase/#freebase-wikidata-mappings) or [Freebase Easy](http://freebase-easy.cs.uni-freiburg.de/dump/).
欢迎pr,可参考CustomDictionary的多实例重构方法: https://github.com/hankcs/HanLP/issues/1339
Similar issue found on `BartTokenizer`. You can bypass the bug by loading a fresh new tokenizer everytime. ``` dataset = dataset.map(lambda x: tokenize_func(x, BartTokenizer.from_pretrained(xxx)), num_proc=num_proc, desc='Tokenize') ```
我的理解是后者,请参考相应理论。 另外,代码的原作者也是这么认为的。
是的,通常是用numpy矩阵运算实现的。 这段代码是入门教学用的,可能主打简单吧。
请参考:https://bbs.hankcs.com/t/topic/4186 正在忙别的研究,暂时没时间写这篇论文。
我好久没看这段代码了,凭记忆回答一下。 这是因为主题模型中的Vocabulary在训练后就是个固定的结构,如果你拿A语料上训练的phi矩阵去B语料上用,那么你得用A的Vocabulary去B语料取id。
这个功能还在探索中。
这是一段搜索正则化因子的函数。 ```java /** * * Liblinear 自动寻参 * @author hankcs */ public class grid { public static double find_parameters(final Problem prob, double from, double end, double step) { if (from...