KoNLP In value[[3L]](cond) : can't processing

data = extractNoun('울고싶다 왜 안되는지 정말 모르겠다') java.lang.StringIndexOutOfBoundsException: String index out of range: -1 at java.lang.String.substring(String.java:1967) at kr.ac.kaist.swrc.jhannanum.plugin.SupplementPlugin.PlainTextProcessor.SentenceSegmentor2.SentenceSegmentor2.doProcess(SentenceSegmentor2.scala:68) at kr.ac.kaist.swrc.jhannanum.hannanum.Workflow.analyzeInSingleThread(Workflow.java:835) at kr.ac.kaist.swrc.jhannanum.hannanum.Workflow.analyze(Workflow.java:549) at kr.pe.freesearch.jhannanum.comm.HannanumInterface.extractNoun(HannanumInterface.java:141) Warning message: In value[3L] : can't processing '울고싶다 왜 안되는지 정말 모르겠다'.

Apr 18 '18 11:04 jisu1223

저도 같은 오류로 고생중입니다. 왜 안 되는걸까요

May 19 '19 08:05 yerimlim

해결방법이 없나요..아무리 해도 안되네요

Jan 30 '20 05:01 hyohyo-yoo

Java 버전에 따라 동작하지 않을 수 있습니다. Java 8 버전에서 시도해 보셨는지 궁금합니다.

Jan 30 '20 09:01 seonghobae

https://gumu.kr/blog/1010/r-konlp%ED%8C%A8%ED%82%A4%EC%A7%80-%EC%84%A4%EC%B9%98-%EC%98%A4%EB%A5%98fail-to-install-scala-library-2-11-8-jar/ 이 글을 참고하세요. Maven Repo 정책 때문에 scala.....jar 파일이 없는 문제가 생길 수 있습니다.

Jan 30 '20 15:01 shrewdact

흠, 그 문제군요. 그렇다면 CRAN 관리자가 2월 1일에는 CRAN에서 걷어 낼 겁니다. 문제는 개발자님께서 2월 중순까지 손을 못 대신대요.

Jan 30 '20 15:01 seonghobae

shrewdact 님이 올려주신 링크로 폴더 덮어씌웠는데도 여전히 문제가 발생하네요.. 제경우엔 처음에 패키지 설치 오류 문제가 발생하다, 폴더 재설치후에는 해결했는데 여전히 아래와 같은 문제가 발생합니다.

sentence <- "명사인지 제발 판명해줘" extractNoun(sentence) [1] "명사인지 제발 판명해줘" Warning message: In value[3L] : can't processing '명사인지 제발 판명해줘'.

sapply(c("R은 free 소프트웨어이고, [완전하게 무보증]입니다.", "일정한 조건에 따르면, 자유롭게 이것을 재배포할수가 있습니다."), extractNoun,USE.NAMES = F) [1] "R은 free 소프트웨어이고, [완전하게 무보증]입니다."
[2] "일정한 조건에 따르면, 자유롭게 이것을 재배포할수가 있습니다." Warning messages: 1: In value[3L] : can't processing 'R은 free 소프트웨어이고, [완전하게 무보증]입니다.'. 2: In value[3L] : can't processing '일정한 조건에 따르면, 자유롭게 이것을 재배포할수가 있습니다.'.

아예 명사만 추출하는 함수 자체가 먹히질 않는 것 같습니다 참고로 Java 버전은 8.231 입니다.

Jan 31 '20 01:01 hyohyo-yoo

Sysenv 로 JAVA_HOME을 R 프로세스가 알수 있도록 잡아주시고 rJava 패키지를 설치한후 해보세요

주의할 점은 수동으로 scala....jar 파일을 복사한 후에는 다시 install.pacakge('KoNLP')를 실행시키면 안됩니다, 왜냐면 다시 scala....jar 파일이 없어지는 상태가 되기 때문입니다.

Jan 31 '20 02:01 shrewdact

네.. 안그래도 자바문제가 항상 있었어서 Sys.setenv(JAVA_HOME="C:\Program Files\Java\jre1.8.0_231") 를 매번 해주는데도 문제가 생기네요 해보고 안되면 다른 pc로도 시도해봐야겠습니다. 감사합니다.

Jan 31 '20 02:01 hyohyo-yoo

Sys.setenv(JAVA_HOME="C:\Program Files\Java\jre1.8.0_231") # 이렇게 하시면 안됩니다. 
 Sys.setenv(JAVA_HOME="C:\\Program Files\\Java\\jre1.8.0_231")  #역슬래쉬를 두개 해야해요. 이건 프로그래밍 적인 것이니까 Escape Character 로 구글링해보세요.

Jan 31 '20 02:01 shrewdact

역슬래쉬 두개입니다 ! 여기로 복붙하니 슬래시하나가 지워지네요

C:\Program Files\Java\jre1.8.0_231

Jan 31 '20 02:01 hyohyo-yoo

알고 계시군요 ^^

Jan 31 '20 02:01 shrewdact

사실은... 슬래시 (/) 하나만 쓰셔도 됩니다.

Jan 31 '20 02:01 seonghobae

그런가요? ㅎㅎㅎ 전 안되는데요

Jan 31 '20 08:01 shrewdact

안녕하세요. 위의 문제 솔루션이 있나요? 리소스 문제인지 JAVA_HOME을 셋팅해도 계속해서 오류가 납니다. 지금 테스트 하고 있는 데이터는 nsmc: Naver sentiment movie corpus(150000건) 입니다. 데이터를 10000건씩 잘라서 수행해도 11874번째 줄 이후에는 수행되지 않네요. 확인 부탁드립니다.

R version 3.6.1 (2019-07-05)
Platform: x86_64-conda_cos6-linux-gnu (64-bit)
Running under: Ubuntu 18.04.3 LTS

Oct 07 '20 07:10 JihyeLee-kr

안녕하세요. 위의 문제 솔루션이 있나요? 리소스 문제인지 JAVA_HOME을 셋팅해도 계속해서 오류가 납니다. 지금 테스트 하고 있는 데이터는 nsmc: Naver sentiment movie corpus(150000건) 입니다. 데이터를 10000건씩 잘라서 수행해도 11874번째 줄 이후에는 수행되지 않네요. 확인 부탁드립니다.
R version 3.6.1 (2019-07-05)
Platform: x86_64-conda_cos6-linux-gnu (64-bit)
Running under: Ubuntu 18.04.3 LTS

항상 1) 똑같은 11874번째 줄에서만 오류가 나는 것인가요? 2)batch를 랜덤으로해도 똑같이 11874번째에서 나는지 확인가능할까요? 1)의 경우라면 해당 문장을 알려주실 수 있으실까요? 한번 확인해보겠습니다.

Oct 08 '20 14:10 seyong

안녕하세요. 위의 문제 솔루션이 있나요? 리소스 문제인지 JAVA_HOME을 셋팅해도 계속해서 오류가 납니다. 지금 테스트 하고 있는 데이터는 nsmc: Naver sentiment movie corpus(150000건) 입니다. 데이터를 10000건씩 잘라서 수행해도 11874번째 줄 이후에는 수행되지 않네요. 확인 부탁드립니다.
R version 3.6.1 (2019-07-05)
Platform: x86_64-conda_cos6-linux-gnu (64-bit)
Running under: Ubuntu 18.04.3 LTS
항상 1) 똑같은 11874번째 줄에서만 오류가 나는 것인가요? 2)batch를 랜덤으로해도 똑같이 11874번째에서 나는지 확인가능할까요? 1)의 경우라면 해당 문장을 알려주실 수 있으실까요? 한번 확인해보겠습니다.

안녕하세요. 테스트 결과 랜덤으로 하면 11874에서만 오류가 나진 않습니다. 1)의 경우는 아닌 것 같습니다. 네이버 영화 평점 데이터 150,000개 중 랜덤으로 20,000개 추출하여 수행한 결과 이번엔 6441번째 이후에는 공백으로 들어옵니다.

In value[3L] : can't processing 오류가 몇 건 발생한 이후에 아래와 같은 오류를 발생시켜
그 이후에 내용이 공백으로 들어가는 것 같습니다.

java.lang.StringIndexOutOfBoundsException: begin 0, end -1, length 0
	at java.base/java.lang.String.checkBoundsBeginEnd(String.java:3319)
	at java.base/java.lang.String.substring(String.java:1874)
	at kr.ac.kaist.swrc.jhannanum.plugin.SupplementPlugin.PlainTextProcessor.SentenceSegmentor2.SentenceSegmentor2.doProcess(SentenceSegmentor2.scala:68)
	at kr.ac.kaist.swrc.jhannanum.hannanum.Workflow.analyzeInSingleThread(Workflow.java:835)
	at kr.ac.kaist.swrc.jhannanum.hannanum.Workflow.analyze(Workflow.java:549)
	at kr.pe.freesearch.jhannanum.comm.HannanumInterface.SimplePos09(HannanumInterface.java:340)

Oct 12 '20 00:10 JihyeLee-kr

안녕하세요. 위의 문제 솔루션이 있나요? 리소스 문제인지 JAVA_HOME을 셋팅해도 계속해서 오류가 납니다. 지금 테스트 하고 있는 데이터는 nsmc: Naver sentiment movie corpus(150000건) 입니다. 데이터를 10000건씩 잘라서 수행해도 11874번째 줄 이후에는 수행되지 않네요. 확인 부탁드립니다.
R version 3.6.1 (2019-07-05)
Platform: x86_64-conda_cos6-linux-gnu (64-bit)
Running under: Ubuntu 18.04.3 LTS
항상 1) 똑같은 11874번째 줄에서만 오류가 나는 것인가요? 2)batch를 랜덤으로해도 똑같이 11874번째에서 나는지 확인가능할까요? 1)의 경우라면 해당 문장을 알려주실 수 있으실까요? 한번 확인해보겠습니다.
안녕하세요. 테스트 결과 랜덤으로 하면 11874에서만 오류가 나진 않습니다. 1)의 경우는 아닌 것 같습니다. 네이버 영화 평점 데이터 150,000개 중 랜덤으로 20,000개 추출하여 수행한 결과 이번엔 6441번째 이후에는 공백으로 들어옵니다.

In value[3L] : can't processing 오류가 몇 건 발생한 이후에 아래와 같은 오류를 발생시켜 그 이후에 내용이 공백으로 들어가는 것 같습니다.
java.lang.StringIndexOutOfBoundsException: begin 0, end -1, length 0
	at java.base/java.lang.String.checkBoundsBeginEnd(String.java:3319)
	at java.base/java.lang.String.substring(String.java:1874)
	at kr.ac.kaist.swrc.jhannanum.plugin.SupplementPlugin.PlainTextProcessor.SentenceSegmentor2.SentenceSegmentor2.doProcess(SentenceSegmentor2.scala:68)
	at kr.ac.kaist.swrc.jhannanum.hannanum.Workflow.analyzeInSingleThread(Workflow.java:835)
	at kr.ac.kaist.swrc.jhannanum.hannanum.Workflow.analyze(Workflow.java:549)
	at kr.pe.freesearch.jhannanum.comm.HannanumInterface.SimplePos09(HannanumInterface.java:340)

간단하게 50000건의 NSMC테스트데이터로 살펴봤습니다. 특정케이스 하나에서 에러가 발생했습니다. SentenceSegment가 제대로 이루어지지 않아 에러가 발생했고, 에러를 야기시킨 값이 버퍼에 지워지지않고 남아있어 그 뒤로 모든 문장들이 같은 에러를 일으킵니다. KoNLP가 아닌 HanNanum-Analyzer쪽에서 처리해야하므로 현재로서 최선의 방법은 에러를 발생시킨 케이스를 찾아 전처리를 해주셔야합니다. 제가 찾은 케이스는 "{문장} . . .;;;" 입니다. 풀스탑뒤에 이어지는 세미콜론들로 인해 SentenceSegment가 제대로 이루어지지 않았습니다. 풀스탑사이에있는 공백값들을 지워주시면 아마 해결될것으로 생각됩니다.

Oct 12 '20 22:10 seyong

안녕하세요. 위의 문제 솔루션이 있나요? 리소스 문제인지 JAVA_HOME을 셋팅해도 계속해서 오류가 납니다. 지금 테스트 하고 있는 데이터는 nsmc: Naver sentiment movie corpus(150000건) 입니다. 데이터를 10000건씩 잘라서 수행해도 11874번째 줄 이후에는 수행되지 않네요. 확인 부탁드립니다.
R version 3.6.1 (2019-07-05)
Platform: x86_64-conda_cos6-linux-gnu (64-bit)
Running under: Ubuntu 18.04.3 LTS
항상 1) 똑같은 11874번째 줄에서만 오류가 나는 것인가요? 2)batch를 랜덤으로해도 똑같이 11874번째에서 나는지 확인가능할까요? 1)의 경우라면 해당 문장을 알려주실 수 있으실까요? 한번 확인해보겠습니다.
안녕하세요. 테스트 결과 랜덤으로 하면 11874에서만 오류가 나진 않습니다. 1)의 경우는 아닌 것 같습니다. 네이버 영화 평점 데이터 150,000개 중 랜덤으로 20,000개 추출하여 수행한 결과 이번엔 6441번째 이후에는 공백으로 들어옵니다. In value[3L] : can't processing 오류가 몇 건 발생한 이후에 아래와 같은 오류를 발생시켜 그 이후에 내용이 공백으로 들어가는 것 같습니다.
java.lang.StringIndexOutOfBoundsException: begin 0, end -1, length 0
	at java.base/java.lang.String.checkBoundsBeginEnd(String.java:3319)
	at java.base/java.lang.String.substring(String.java:1874)
	at kr.ac.kaist.swrc.jhannanum.plugin.SupplementPlugin.PlainTextProcessor.SentenceSegmentor2.SentenceSegmentor2.doProcess(SentenceSegmentor2.scala:68)
	at kr.ac.kaist.swrc.jhannanum.hannanum.Workflow.analyzeInSingleThread(Workflow.java:835)
	at kr.ac.kaist.swrc.jhannanum.hannanum.Workflow.analyze(Workflow.java:549)
	at kr.pe.freesearch.jhannanum.comm.HannanumInterface.SimplePos09(HannanumInterface.java:340)
간단하게 50000건의 NSMC테스트데이터로 살펴봤습니다. 특정케이스 하나에서 에러가 발생했습니다. SentenceSegment가 제대로 이루어지지 않아 에러가 발생했고, 에러를 야기시킨 값이 버퍼에 지워지지않고 남아있어 그 뒤로 모든 문장들이 같은 에러를 일으킵니다. KoNLP가 아닌 HanNanum-Analyzer쪽에서 처리해야하므로 현재로서 최선의 방법은 에러를 발생시킨 케이스를 찾아 전처리를 해주셔야합니다. 제가 찾은 케이스는 "{문장} . . .;;;" 입니다. 풀스탑뒤에 이어지는 세미콜론들로 인해 SentenceSegment가 제대로 이루어지지 않았습니다. 풀스탑사이에있는 공백값들을 지워주시면 아마 해결될것으로 생각됩니다.

넵 답변 감사드립니다!

Oct 16 '20 00:10 JihyeLee-kr

안녕하세요, 혹시 Mac-M1 유저분들 중에서 위와 같은 error를 해결하신 분이 계실까요? 방법을 공유 받고 싶습니다 !

 > extractNoun(s)
 [1] "아버지가 방에 스르륵 들어가신다"
 경고메시지(들): 
 value[[3L]](cond)에서: can't processing '아버지가 방에 스르륵 들어가신다'.

Nov 29 '21 08:11 daeunni

안녕하세요, 혹시 Mac-M1 유저분들 중에서 위와 같은 error를 해결하신 분이 계실까요? 방법을 공유 받고 싶습니다 !
 > extractNoun(s)
 [1] "아버지가 방에 스르륵 들어가신다"
 경고메시지(들): 
 value[[3L]](cond)에서: can't processing '아버지가 방에 스르륵 들어가신다'.

M1의 문제인지 아니면 다른 문제인지 확인이 필요하니, 더 많은 정보를 제공해주시면 한번 살펴보도록 하겠습니다.

Nov 29 '21 22:11 seyong