Kiwi icon indicating copy to clipboard operation
Kiwi copied to clipboard

URL 및 이메일 주소, #해시태그 분석 기능 추가

Open bab2min opened this issue 4 years ago • 6 comments

현재는 URL이나 이메일 주소, #해시 태그 등을 입력하면 모두 알파벳, 특수 문자 등으로 분리하여 태깅하는데 이를 묶어서 분석해내는 기능이 있으면 좋을듯

제안 태그

  • W_URL : 웹 URL 주소 (예시: http://abc.com/def/?a=b )
  • W_EMAIL: 이메일 주소 (예시: [email protected] )
  • W_HASHTAG: 해시 태그 (예시: #해시_태그 )

bab2min avatar Jan 23 '20 05:01 bab2min

0.8.0 버전에서 추가완료

bab2min avatar Mar 29 '20 09:03 bab2min

#해시태그와 마찬가지로 @link 기능은 추가 할 계획이 있으신가요?

SHwan93 avatar Aug 31 '20 04:08 SHwan93

@SHwan93 좋은 의견 감사합니다. 다음 업데이트 때 @로 시작하는 link를 분석하는 기능을 추가해보도록 하겠습니다.

bab2min avatar Aug 31 '20 12:08 bab2min

@link 정규식 패턴은 @[-_a-zA-Z0-9.]+ 정도로 하면 될듯.

bab2min avatar Aug 31 '20 12:08 bab2min

위처럼하면 [email protected]에도 걸리는데

문제가 되지 않는다면 이메일에대한 태그도 만들어서 이메일 먼저 거르고 해시태그를 찾는것은 어떨까요?

SHwan93 avatar Sep 01 '20 02:09 SHwan93

일련번호에 대한 분석도 지원되면 좋을 것 같다. 다음과 같은 패턴도 은근히 자주 사용되는데, 현재 형태소 분석시 모두 숫자와 특수문자로 쪼개지는 문제가 있어서 불편함.

  • 전화번호 유형: 010-1234-5678
  • 통장 번호 유형: 01-001-000101001
  • IP 주소 유형: 12.123.234.123
  • 시간 유형: 11:59:59
  • 자리 구분 콤마: 1,234,567

위와 같이 숫자와 특정 특수문자가 서로 반복하여 연속하는 경우는 모두 일련번호 패턴으로 간주하여 묶어내면 될 듯. 품사 태그 이름은 W_SERIAL이 괜찮아 보임.

bab2min avatar Mar 28 '22 15:03 bab2min