Kiwi
Kiwi copied to clipboard
형태소에서 텍스트를 복원하는 기능 추가
하/VV + 었/EP + 다/EF
=> 했다
집/NNG + 에/JKB + 가/VV + 었/EP + 어/EF
=> 집에 갔어
등과 같이 형태소 배열을 받았을때 이를 다시 합쳐 원래의 텍스트로 복원하는 기능이 있으면 좋을듯.
이 기능이 구현되면 Kiwi 형태소 분석기를 일종의 tokenizer처럼 임의의 text를 encode/decode하는 데 사용하는것이 가능해짐.
단, 이 기능을 위해서는 용언류 형태소의 불규칙 활용여부를 판단할 수 있는 기능이 필요하다. 이는 다음과 같이 동일한 어간을 가지는 형태소가 다르게 활용될 가능성이 있기 때문:
묻/VV + 어/EC
=> 묻어
(규칙 활용)
묻/VV + 어/EC
=> 물어
(불규칙 활용)
사실 불규칙 활용여부 판단 기능은 #42 와도 어느 정도 연관되지만, 일단 단순한 구현을 위해서 표층형에서 확실히 구별되는 경우에만 규칙/불규칙 표지를 붙이고(ex: 물어 vs 묻어), 구분되지 않는 경우에는 미정인 상태로 두는 것으로(ex: 묻다 vs 묻다) 진행해도 무방할듯.
0.12.0버전에서는 묻다
/걷다
두 동사에 대해서 불규칙/규칙 활용을 구분하는 기능이 추가되었는데, 사실 이르다
(일렀다/이르렀다)에 대한 구분도 보완이 필요함. 추후 계획으로 설정!