KLUE
KLUE copied to clipboard
wos-v1/ontology와 관련한 지하철 역명 표기 문제
안녕하세요. 자연어, 그리고 DST에 관심이 많은 태영돈이라고 합니다. 🙂
wos-v1/ontology
와 관련하여 찾게된 지하철 역명 표기 문제에 대해 말씀드리고자 합니다.
WoS
데이터셋의 경우, 관광지 이름이나, 지하철역명 등은 실제 이름 그대로 사용하고, 숙소/식당 이름 등은 가상의 이름을 사용한 것으로 알고 있습니다.
이를 바탕으로 wos-v1/ontology
를 EDA 해본 바로 다음 두 가지 문제가 있다고 생각합니다.
1. 오기재된 지하철역명
-
택시-출발지/도착지
:동대문사문화공원역
-
동대문역사문화공원역
이 공식명칭이고 해당 value가 존재합니다.
-
-
택시-출발지/도착지
:신도역
- 서울에
신도역
은 존재하지 않고, 충청권에 폐역된 신도역이라 하기엔 대화 맥락에서 많이 벗어납니다. -
신도림역
의 오기재라고 생각합니다.
- 서울에
2. 다중 표기의 문제
이는 WoS의 데이터셋 구축에서 '지하철역명은 정식명칭을 기준으로 한다' 는 원칙이 있다는 가정 하에 발생하는 문제입니다.
-
2.1 실제 명칭과 다른 경우
-
택시-출발지/도착지
:홍익대학교역
-
홍대입구역
이 정식명칭이며, 해당 value는택시
,지하철
도메인에 모두 포함되어 있습니다. - dialogue에서 사례가 매우 풍부하게 존재합니다.
-
-
택시-출발지/도착지
: 예술의전당역- 정식명칭은
남부터미널역
입니다. 해당 value는 ontology에 존재하지 않습니다. -
남부터미널(예술의전당)역
으로 오래 유지되었지만 현재는남부터미널역
으로 간소화 된 것 같습니다.
- 정식명칭은
-
-
2.2 다중 표기로 혼용되어 사용되는 경우
-
지하철/출발지/도착지
:수유역
- 이 경우
수유(강북구청)역
이 정식명칭에 해당하지만수유역
이라는 value가지하철-출발지/도착지
,택시-출발지/도착지
에 포함되어 있습니다. - 두 value 모두 dialogue에 많은 사례들을 가지고 있습니다.
- 이 경우
-
택시-출발지/도착지
:삼성동중앙역
-
삼성중앙역
이 정식명칭이고, 역시 해당 value가지하철/택시-출발지/도착지
에 포함되어 있습니다. - 두 value 모두 dialogue에 많은 사례들을 가지고 있습니다.
-
-
1. 오기재된 지하철역명
의 경우엔 수정되는게 맞다고 생각합니다.
2. 다중 표기의 문제
는 어떤 식으로 대응하는게 좋을지 개인적으론 판단이 명확히 서지 않습니다. DST WoS데이터셋을 구축할 때 해당 이슈를 어떤 기준으로 처리하셨을지 궁금합니다. 👀
- 위 내용 중 오류인 것을 확인해주시면 관련해서 후속적으로
PR
하도록 하겠습니다. 🤗
안녕하세요! 답변이 늦었네요. 리포트 감사드립니다.
지하철역 관련하여 말씀해주신 이슈를 예전에 한번 정제를 했었는데, 조금 남아있었나보군요. 다음 버전업을 진행하게 된다면 해당 이슈를 리졸브해보도록 하겠습니다.