tomotopy
tomotopy copied to clipboard
새로운 문서에 대한 get_topic_words 또는 get_topic_word_dist
안녕하십니까 너무 자주 문의를 드려, 귀찮으실까 죄송스럽네요.
mdl.make_doc을 통한 새로운 문서 집합에 대해서도 mdl.get_topic_words 나 mdl.get_topic_word_dist 같은 결과물을 낼 수 있는지 문의드립니다.
※ 해당 함수들의 def 를 참고해보고 싶었는데 찾지를 못해서 def를 볼수 있다면 어디서 확인할 수 있는지도 문의드립니다.
답변 부탁드리겠습니다. 감사합니다.
안녕하세요~ @tkddnd0214
mdl.get_topic_words
는 토픽 모델 전체의 토픽-단어 분포를 가져오는 메소드입니다. make_doc으로 생성한 새로운 문서에 대해서 추론을 할 경우 토픽-단어 분포는 고정된 상태에서 각 문서별로 문서-토픽 분포를 추정하는 것입니다. (즉, 문서-단어 분포를 문서-토픽 분포와 토픽-단어 분포로 분해하는데 토픽-단어 분포는 고정된 상황)
따라서 애초에 새로운 문서 집합에 대해서는 문서-토픽 분포를 구해야하는 것이지 토픽-단어 분포를 구해야하는 것이 아닙니다.
그리고 새로운 문서에 대한 문서-토픽 분포는 기존 문서에 대한 문서-토픽 분포를 구할때와 마찬가지로 doc.get_topics()
혹은 doc.get_topic_dist()
를 사용하시면 되겠습니다.
만약 새로운 문서 집합에 대해 토픽-단어 분포를 새로 학습하고 싶으신거라면 make_doc을 사용하실게 아니라 토픽 모델을 새로 생성하셔서 add_doc을 하는게 맞구요.