NLP4kec
NLP4kec copied to clipboard
개발자님 HPC 서버환경에서 사용하다 에러가 생겨 문의드립니다.
Error in .jcall(obj, "[Ljava/lang/String;", "rTextParserFromRtoR", .jarray(contentVector), : method rTextParserFromRtoR with signature ([ILjava/lang/String;Ljava/lang/String;Ljava/lang/String;Ljava/lang/String;)[Ljava/lang/String; not found Calls: r_parser_r -> .jcall Execution halted tar: Removing leading `/' from member names
대학 HPC 서버에서 작업(램 1000Gb)을 하고 있습니다. 텍스트 데이터는 평균 10단어 정도의 글이 300만건 정도 됩니다.
자체 dictionary를 파싱 때 사용하고 있는데, 다른 이슈의 답변과 같이 "UTF-8"로 텍스트 파일을 다시 바꾸어 몇번 다시 실행을 해봐도, 에러가 나는 상황입니다.
단, 차이는 개발자님 깃허브에 다운 받은 NLP4kec_1.4.0.tar를 사용하고 있는데, 서버의 R은 3.6.0 버전입니다. (테스트로 한문장을 r_parser_r로 하면, 성공적으로 파싱이 되는 상황입니다.)
KoNLP, Rmecab Ko 등 다양한 패키지를 써봤지만, 효율과 여러 측면에서 NLP4kec가 여전히 최고인 것 같습니다. 늘 감사드립니다.
P.S. 혹시 패키지 구버전 (R 3.6.0 호환)을 다운로드 할 수 있는 방법이 있으면 부탁드립니다^^
문제를 해결했습니다^^.
일단 R 3.6.0에서도 현재의 NLP4kec_1.4.0.tar 패키지가 잘 돌아갑니다. 경고 메시지는 뜨지만, 이리저리 확인해 보니 아주 훌륭하게 작동을 합니다.
두번째로 개인 맥에서 UTF-8로 저장한 txt 사전 파일을 HPC 서버에서 바로 적용할 때는 위와 같은 에러가 났었습니다. 그런데, 서버 상에서 txt 파일을 열어서 몇가지 단어를 더 추가하고 저장한 후에 r_parser_r을 시행하니 정상적으로 작동하였습니다.
정말 고맙습니다.
최종적으로 새로운 파일로 다시 서버에서 파싱을 하다가 똑 같은 에러가 발생했습니다. 온갖 고민 끝에 보니... 아주 간단한 문제 였습니다.
서버 상에서 read.csv 명령어를 할 때, stringsAsFactors = FALSE 를 입력하지 않았더니, 기존에 죄다 팩터로 인식한것이 문제였습니다.(랩탑에서는 Rstudio가 알아서 csv 파일 불러올때 처리를 해줘서 간과했던 부분입니다)
패키지는.... 완벽합니다^^.