kss icon indicating copy to clipboard operation
kss copied to clipboard

이전에 분리했던 텍스트들에 따라 문장분리 결과가 달라지는 사례

Open lifelongeek opened this issue 2 years ago • 4 comments

  • split_sentences()호출시 이전에 처리했던 텍스트에 따라서 현재 처리하는 텍스트가 달라질 요소가 있나요?

  • 있다면 어떤 옵션으로 방지할 수 있을까요?

  • kss version: 3.3.1.1

  • split_sentences(text, backend="mecab", num_workers=1)

  • text = "우리가 타이라는 단어는 원래 동사로 묶다 엮다라는 표현이고요 그다음에 명사로 하게 되면 묶음이라는 표현이죠 그런데"

    • 실행시 결과: "우리가 타이라는 단어는 원래 동사로 묶다 엮다라는 표현이고요 그다음에 명사로 하게 되면 묶음이라는 표현이죠. 그런데"
    • 이전에 500개의 문서 분리후 실행: "우리가 타이라는 단어는 원래 동사로 묶다 엮다. 라는 표현이고요 그다음에 명사로 하게 되면 묶음이라는 표현이죠. 그런데"
  • "묶다 엮다" 부분에서 문장 분리 결과가 달라집니다.

lifelongeek avatar Nov 26 '21 02:11 lifelongeek

아뇨 그런 요소를 제가 의도해서 넣지는 않았습니다. 버그로 보이네요. 말씀해주신 문장으로 재현해보고 다시 말씀드리겠습니다. 리포트 감사합니다.

hyunwoongko avatar Nov 30 '21 15:11 hyunwoongko

안녕하세요. 저도 비슷한 증상이 발생하네요. 혹 짐작가는 부분이 있으실까요?

uoneway avatar Jan 11 '22 11:01 uoneway

글쎄요 이 문제는 재현해보기가 어렵네요.. 일단 제가 500번 분리하고나서 다시 해도 동일하게 나왔는데요. 재현해볼수 있는 예제 (문서라던지) 를 함께 제공해주실수 있으신가요? 저 문장 하나로는 재현이 어려웠습니다.

https://github.com/hyunwoongko/kss/issues/33 일단은 이게 문제일수도 있을 것 같아서 3.4에서 수정했습니다. kss에서는 동일한 문장이 들어오면 재실행을 막고자 캐싱을 하는데, 옵션이 변경되어도 반영이 안되고 캐싱된 문장이 그대로 나갔던 문제였습니다. 그래서 옵션을 포함하여 캐싱되도록 변경하였습니다.

우선은 저게 문제일 확률이 높아보이는데요, 재현이 명확히 어려우면 해결이 어려울 수 있다는 점은 양해 부탁드립니다.

hyunwoongko avatar Feb 15 '22 21:02 hyunwoongko

글쎄요 이 문제는 재현해보기가 어렵네요.. 일단 제가 500번 분리하고나서 다시 해도 동일하게 나왔는데요. 재현해볼수 있는 예제 (문서라던지) 를 함께 제공해주실수 있으신가요? 저 문장 하나로는 재현이 어려웠습니다.

#33 일단은 이게 문제일수도 있을 것 같아서 3.4에서 수정했습니다. kss에서는 동일한 문장이 들어오면 재실행을 막고자 캐싱을 하는데, 옵션이 변경되어도 반영이 안되고 캐싱된 문장이 그대로 나갔던 문제였습니다. 그래서 옵션을 포함하여 캐싱되도록 변경하였습니다.

우선은 저게 문제일 확률이 높아보이는데요, 재현이 명확히 어려우면 해결이 어려울 수 있다는 점은 양해 부탁드립니다.

아 현웅님 감사합니다. 다만 다시 확인해봤는데 동일한 문제가 발생하는군요. 데이터 공유가 어려워서 바로 될 지 모르겠지만, 가능한 재현 가능한 상황 공유해보도록 하겠습니다.

link-kim avatar Feb 28 '22 01:02 link-kim

황동이 없어서 클로징합니다. 필요하시면 리오픈 부탁드립니다.

hyunwoongko avatar Nov 28 '22 13:11 hyunwoongko