Kiwi icon indicating copy to clipboard operation
Kiwi copied to clipboard

사이시옷이 포함된 합성 명사를 분해하는 기능 추가

Open bab2min opened this issue 4 months ago • 0 comments

국어학에서는 사이시옷을 별도의 형태소가 아닌 발음 현상을 반영하기 위한 표기법으로 다루고 있기에 형태소 분석기에서는 사이시옷이 들어간 합성명사는 개별 명사로 분해하지 않고 단일 명사로 분석하는 걸 원칙으로 하고 있다. 그러나 형태소 분석기의 사전에 사이시옷이 들어간 모든 명사가 등재되는게 불가능하고, 또 언중들이 맞춤법을 헷갈려 사이시옷이 들어가지 않는 단어에도 사이시옷을 넣어 표기하거나, 사이시옷이 들어가는 새로운 합성어를 만들어내는 경우도 있으므로 웹 텍스트 분석까지 고려할 때, 사이시옷 분석을 실시하는게 오분석율을 낮추는데에 기여할 수 있다. 이에 사이시옷을 위한 별도의 태그를 추가하고, 사이시옷 분석을 사용할지 말지를 선택할 수 있도록 분석 옵션을 추가하는 것을 계획한다. 현대 한국어 맞춤법에 따르면 한자어끼리 결합할때는 사이시옷을 삽입하지 않는게 원칙이나, 웹 텍스트들을 살펴본 결과 맞춤법을 틀리는 경우가 제법 있는 것으로 확인되었으므로, 분석 시에 한자어 유무를 별도로 따지지는 않는 것으로 한다. 다만 ㅅ받침이 들어간 명사들이 과도하게 분할되는 것을 막기 위해 ㅅ 앞뒤에는 사전에 등재된 명사만 등장할 수 있도록 제한을 가한다.

bab2min avatar Oct 18 '24 14:10 bab2min