KLUE icon indicating copy to clipboard operation
KLUE copied to clipboard

wos-v1/ontology와 관련한 지하철 역명 표기 문제

Open taepd opened this issue 3 years ago • 1 comments

안녕하세요. 자연어, 그리고 DST에 관심이 많은 태영돈이라고 합니다. 🙂

wos-v1/ontology와 관련하여 찾게된 지하철 역명 표기 문제에 대해 말씀드리고자 합니다.

WoS 데이터셋의 경우, 관광지 이름이나, 지하철역명 등은 실제 이름 그대로 사용하고, 숙소/식당 이름 등은 가상의 이름을 사용한 것으로 알고 있습니다.

이를 바탕으로 wos-v1/ontology를 EDA 해본 바로 다음 두 가지 문제가 있다고 생각합니다.

1. 오기재된 지하철역명

  • 택시-출발지/도착지 : 동대문사문화공원역
    • 동대문역사문화공원역 이 공식명칭이고 해당 value가 존재합니다.
  • 택시-출발지/도착지 : 신도역
    • 서울에 신도역은 존재하지 않고, 충청권에 폐역된 신도역이라 하기엔 대화 맥락에서 많이 벗어납니다.
    • 신도림역의 오기재라고 생각합니다.

2. 다중 표기의 문제

이는 WoS의 데이터셋 구축에서 '지하철역명은 정식명칭을 기준으로 한다' 는 원칙이 있다는 가정 하에 발생하는 문제입니다.

  • 2.1 실제 명칭과 다른 경우

    • 택시-출발지/도착지 : 홍익대학교역

      • 홍대입구역이 정식명칭이며, 해당 value는 택시, 지하철 도메인에 모두 포함되어 있습니다.
      • dialogue에서 사례가 매우 풍부하게 존재합니다.
    • 택시-출발지/도착지 : 예술의전당역

      • 정식명칭은 남부터미널역입니다. 해당 value는 ontology에 존재하지 않습니다.
      • 남부터미널(예술의전당)역으로 오래 유지되었지만 현재는 남부터미널역으로 간소화 된 것 같습니다.
  • 2.2 다중 표기로 혼용되어 사용되는 경우

    • 지하철/출발지/도착지 : 수유역

      • 이 경우 수유(강북구청)역 이 정식명칭에 해당하지만 수유역 이라는 value가 지하철-출발지/도착지 , 택시-출발지/도착지 에 포함되어 있습니다.
      • 두 value 모두 dialogue에 많은 사례들을 가지고 있습니다.
    • 택시-출발지/도착지 : 삼성동중앙역

      • 삼성중앙역이 정식명칭이고, 역시 해당 value가 지하철/택시-출발지/도착지 에 포함되어 있습니다.
      • 두 value 모두 dialogue에 많은 사례들을 가지고 있습니다.

1. 오기재된 지하철역명 의 경우엔 수정되는게 맞다고 생각합니다. 2. 다중 표기의 문제 는 어떤 식으로 대응하는게 좋을지 개인적으론 판단이 명확히 서지 않습니다. DST WoS데이터셋을 구축할 때 해당 이슈를 어떤 기준으로 처리하셨을지 궁금합니다. 👀

  • 위 내용 중 오류인 것을 확인해주시면 관련해서 후속적으로 PR 하도록 하겠습니다. 🤗

taepd avatar Jun 12 '21 17:06 taepd

안녕하세요! 답변이 늦었네요. 리포트 감사드립니다.

지하철역 관련하여 말씀해주신 이슈를 예전에 한번 정제를 했었는데, 조금 남아있었나보군요. 다음 버전업을 진행하게 된다면 해당 이슈를 리졸브해보도록 하겠습니다.

DSKSD avatar Jun 17 '21 05:06 DSKSD