Minchul Lee
Minchul Lee
@batmanscode Thank you for sharing your detail experience!! Most of your words sound reasonable. However, there seems to be a pitfall in improving log likelihood by adjusting `min_df` and `min_cf`....
Hi @alexs131 Thank you for reporting the bug. It seems to be a problem with floating point precision errors. https://github.com/bab2min/tomotopy/blob/926f6ff34599a19d20b322f8b1a13fe66e8c5986/src/TopicModel/HDPModel.hpp#L493-L506 Currently, the numerator(`doc.numByTopic`) and denominator(`doc.getSumWordWeight()`) of topic distribution are stored...
Hi @marcelned Actually, I didn't consider about the ppc architecture at the testing process. Since I do not currently have any native powerpc equipments, I will try to solve the...
@marcelned It seems that some dependent also have issues with PowerPC, which will require more time to troubleshoot. I'm sorry, but please wait a little longer.
안녕하세요 @dawnlog 님, 좋은 제안 감사합니다~! 1) 네, `Kiwi.analyze` 메소드가 사용하기에 너무 불편하다는 피드백이 있어서, 0.10.2버전부터 `Kiwi.tokenize` 메소드를 추가했습니다. ```python >>> kiwi.tokenize('샘플 문장입니다. 샘플 문장이에요. 샘플입니다') [Token(form='샘플', tag='NNG', start=0, len=2),...
안녕하세요, @SHwan93 매번 소중한 오류를 제보해주심에 감사드립니다. 0.8.2버전에서 올려주신 텍스트로 테스트를 진행중에 있는데, 유사한 오류가 재현되지 않네요. 혹시 해당 버그가 발생하는 OS나 python버전이나 오류 재현이 가능한 코드 조각을 공유해주실수 있으실까요?
일단 exception 발생시 python쪽에서 잡지못하는 문제는 원인을 파악하였습니다. unicode 오류 발생 관해서는 좀더 확인해보도록 할게요.
@SHwan93 일단 0.9.0 버전에서 exception catch 부분은 해결되었습니다. 공유해주신 입력 텍스트로는 UnicodeException이 재현되지 않지만, 이모지가 포함된 텍스트들에서 잠재적으로 유사한 오류들이 발생할 가능성이 있으므로 일단 이슈는 열어두고 있겠습니다.
@DrinkingMilktea 제보 감사합니다~ 공유해주신 코드 바탕으로 문제 원인 조사해보도록 하겠습니다.
0.14.0 버전에서 해결