Kiwi
Kiwi copied to clipboard
사이시옷이 포함된 합성 명사를 분해하는 기능 추가
국어학에서는 사이시옷을 별도의 형태소가 아닌 발음 현상을 반영하기 위한 표기법으로 다루고 있기에 형태소 분석기에서는 사이시옷이 들어간 합성명사는 개별 명사로 분해하지 않고 단일 명사로 분석하는 걸 원칙으로 하고 있다. 그러나 형태소 분석기의 사전에 사이시옷이 들어간 모든 명사가 등재되는게 불가능하고, 또 언중들이 맞춤법을 헷갈려 사이시옷이 들어가지 않는 단어에도 사이시옷을 넣어 표기하거나, 사이시옷이 들어가는 새로운 합성어를 만들어내는 경우도 있으므로 웹 텍스트 분석까지 고려할 때, 사이시옷 분석을 실시하는게 오분석율을 낮추는데에 기여할 수 있다. 이에 사이시옷을 위한 별도의 태그를 추가하고, 사이시옷 분석을 사용할지 말지를 선택할 수 있도록 분석 옵션을 추가하는 것을 계획한다. 현대 한국어 맞춤법에 따르면 한자어끼리 결합할때는 사이시옷을 삽입하지 않는게 원칙이나, 웹 텍스트들을 살펴본 결과 맞춤법을 틀리는 경우가 제법 있는 것으로 확인되었으므로, 분석 시에 한자어 유무를 별도로 따지지는 않는 것으로 한다. 다만 ㅅ받침이 들어간 명사들이 과도하게 분할되는 것을 막기 위해 ㅅ 앞뒤에는 사전에 등재된 명사만 등장할 수 있도록 제한을 가한다.