NLP4kec icon indicating copy to clipboard operation
NLP4kec copied to clipboard

개발자님 HPC 서버환경에서 사용하다 에러가 생겨 문의드립니다.

Open DrCrimeScience opened this issue 3 years ago • 2 comments

Error in .jcall(obj, "[Ljava/lang/String;", "rTextParserFromRtoR", .jarray(contentVector), : method rTextParserFromRtoR with signature ([ILjava/lang/String;Ljava/lang/String;Ljava/lang/String;Ljava/lang/String;)[Ljava/lang/String; not found Calls: r_parser_r -> .jcall Execution halted tar: Removing leading `/' from member names

대학 HPC 서버에서 작업(램 1000Gb)을 하고 있습니다. 텍스트 데이터는 평균 10단어 정도의 글이 300만건 정도 됩니다.

자체 dictionary를 파싱 때 사용하고 있는데, 다른 이슈의 답변과 같이 "UTF-8"로 텍스트 파일을 다시 바꾸어 몇번 다시 실행을 해봐도, 에러가 나는 상황입니다.

단, 차이는 개발자님 깃허브에 다운 받은 NLP4kec_1.4.0.tar를 사용하고 있는데, 서버의 R은 3.6.0 버전입니다. (테스트로 한문장을 r_parser_r로 하면, 성공적으로 파싱이 되는 상황입니다.)

KoNLP, Rmecab Ko 등 다양한 패키지를 써봤지만, 효율과 여러 측면에서 NLP4kec가 여전히 최고인 것 같습니다. 늘 감사드립니다.

P.S. 혹시 패키지 구버전 (R 3.6.0 호환)을 다운로드 할 수 있는 방법이 있으면 부탁드립니다^^

DrCrimeScience avatar Mar 12 '21 21:03 DrCrimeScience

문제를 해결했습니다^^.

일단 R 3.6.0에서도 현재의 NLP4kec_1.4.0.tar 패키지가 잘 돌아갑니다. 경고 메시지는 뜨지만, 이리저리 확인해 보니 아주 훌륭하게 작동을 합니다.

두번째로 개인 맥에서 UTF-8로 저장한 txt 사전 파일을 HPC 서버에서 바로 적용할 때는 위와 같은 에러가 났었습니다. 그런데, 서버 상에서 txt 파일을 열어서 몇가지 단어를 더 추가하고 저장한 후에 r_parser_r을 시행하니 정상적으로 작동하였습니다.

정말 고맙습니다.

DrCrimeScience avatar Mar 18 '21 10:03 DrCrimeScience

최종적으로 새로운 파일로 다시 서버에서 파싱을 하다가 똑 같은 에러가 발생했습니다. 온갖 고민 끝에 보니... 아주 간단한 문제 였습니다.

서버 상에서 read.csv 명령어를 할 때, stringsAsFactors = FALSE 를 입력하지 않았더니, 기존에 죄다 팩터로 인식한것이 문제였습니다.(랩탑에서는 Rstudio가 알아서 csv 파일 불러올때 처리를 해줘서 간과했던 부분입니다)

패키지는.... 완벽합니다^^.

DrCrimeScience avatar Mar 24 '21 16:03 DrCrimeScience