Kiwi
Kiwi copied to clipboard
Kiwi(지능형 한국어 형태소 분석기)
확인차 이슈 생성합니다. 감사합니다.
현재 base 모델을 git-lfs 를 이용해서 관리하고 있는 것으로 알고 있습니다. git-lfs가 많이 쓰이는 것은 맞습니다만 기본으로 사용되는 도구는 아닌 점을 고려하였습니다. 그리고 모델이 많아지고 있음으로 보아 모델 파일 관리를...
`삶/NNG + 이/VCP + 에요/EF`를 결합할 경우 `삶예요`처럼 `이에요`가 잘못 축약되는 문제가 있음.
`하/VV + 었/EP + 다/EF` => `했다` `집/NNG + 에/JKB + 가/VV + 었/EP + 어/EF` => `집에 갔어` 등과 같이 형태소 배열을 받았을때 이를 다시 합쳐 원래의 텍스트로 복원하는...
`SS` 태그에 할당되어 있는 인용부호 및 괄호의 경우 대개 여는 부호와 닫는 부호가 쌍으로 쓰인다. 여는 부호와 닫는 부호를 명확히 구분하여 각각 `SSO`와 `SSC`로 별도 태그를 할당한다면, 괄호나 인용문의 시작/끝을...
현재는 URL이나 이메일 주소, #해시 태그 등을 입력하면 모두 알파벳, 특수 문자 등으로 분리하여 태깅하는데 이를 묶어서 분석해내는 기능이 있으면 좋을듯 제안 태그 * W_URL : 웹 URL 주소 (예시:...
## 기능 설명 현재 이용자 사전에는 형태소 1개짜리 단어만 등록이 가능하다. 공백을 포함하는 여러 단어를 추가하거나 특정 패턴의 분석 방법을 설정해 등록할 수 있도록 하면 유용할듯. ### 여러 단어로 구성된...
현재 KiwiBuilder에 전처리된 사전 데이터로부터 KiwiBuilder를 생성하는 기능은 추가되어 있음. https://github.com/bab2min/Kiwi/blob/844474eb2187e1b4f38d0050b5a3d3039459df86/include/kiwi/Kiwi.h#L169-L171 또 말뭉치로부터 언어모델을 학습하는 기능도 하드코딩으로 구현은 되어있음. https://github.com/bab2min/Kiwi/blob/844474eb2187e1b4f38d0050b5a3d3039459df86/src/KiwiBuilder.cpp#L364-L369 ModelGenerator 폴더 내에 파이썬 스크립트로 중구난방으로 작성되어 있는 `원본 말뭉치...
https://github.com/bab2min/kiwipiepy/issues/70 kiwipiepy 쪽 추가 기능으로 제안한 것인데 c++ 코어쪽에 구현이 되면 더 좋을 듯함.