fastcampus-machine-learning-project icon indicating copy to clipboard operation
fastcampus-machine-learning-project copied to clipboard

NYC 수요예측 학습도중 궁금해서 글남깁니다!

Open jb8049 opened this issue 5 years ago • 2 comments

NYC수요예측 11.데이터 전처리 부분입니다.

집코드를 One Hot Encoding으로 전처리를 하고, Train / Test 나누기를 하는데, 여기서 One Hot Encoding을 왜 하는건가요.. 너무 초보라 계속 이유를 모르겠습니다.. Linear Regression으로 회귀식 만들기 위해 하는 것 같은데, 집코드를 전처리 하지 않고 그냥 할 순 없는 건가요..?

jb8049 avatar Sep 30 '20 13:09 jb8049

안녕하세요~ zipcode가 숫자로 되어있으니, 그냥 사용해도 되지 않을까?라고 생각하실 수 있는데 zipcode는 범주형 데이터입니다

그럼 그냥 범주형 데이터를 바로 쓸 수 있지않을까? 라는 생각을 할 수 있습니다. 머신러닝 알고리즘 대부분은 범주형 데이터를 직접 사용할 수 없기 때문에, 숫자로 변환해야 합니다. 이런 경우에 원핫인코딩을 사용할 수도 있고, 그냥 현재 값을 int로 변경할 수도 있습니다. 어떤 방법이 나은지는 데이터에 따라 다르기 때문에, 모두 실험해보곤 합니다. 다만 현재 값을 그대로 int로 변경하는 방법은 모델이 연속적인 값으로 인식할 수 있기 때문에 보통 피하고 원핫인코딩 등을 진행합니다.

머신러닝 강의 중에 "범주형 데이터 다루기(One Hot encoding)쪽을 다시 보셔도 좋을 것 같아요)

추가로 참고할 링크도 공유드립니다 :)

https://machinelearningmastery.com/how-to-one-hot-encode-sequence-data-in-python/

감사합니다

zzsza avatar Oct 03 '20 06:10 zzsza

선생님 친절한 답변 정말 감사합니다 ㅎㅎㅎ 궁금증이 해결되었습니다!! -----Original Message----- From: "Sung Yun Byeon"[email protected] To: "zzsza/fastcampus-machine-learning-project"[email protected]; Cc: "agb9380"[email protected]; "Author"[email protected]; Sent: 2020-10-03 (토) 15:18:38 (GMT+09:00) Subject: Re: [zzsza/fastcampus-machine-learning-project] NYC 수요예측 학습도중 궁금해서 글남깁니다! (#4)

안녕하세요~ zipcode가 숫자로 되어있으니, 그냥 사용해도 되지 않을까?라고 생각하실 수 있는데 zipcode는 범주형 데이터입니다 그럼 그냥 범주형 데이터를 바로 쓸 수 있지않을까? 라는 생각을 할 수 있습니다. 머신러닝 알고리즘 대부분은 범주형 데이터를 직접 사용할 수 없기 때문에, 숫자로 변환해야 합니다. 이런 경우에 원핫인코딩을 사용할 수도 있고, 그냥 현재 값을 int로 변경할 수도 있습니다. 어떤 방법이 나은지는 데이터에 따라 다르기 때문에, 모두 실험해보곤 합니다. 다만 현재 값을 그대로 int로 변경하는 방법은 모델이 연속적인 값으로 인식할 수 있기 때문에 보통 피하고 원핫인코딩 등을 진행합니다. 머신러닝 강의 중에 "범주형 데이터 다루기(One Hot encoding)쪽을 다시 보셔도 좋을 것 같아요) 추가로 참고할 링크도 공유드립니다 :) https://machinelearningmastery.com/how-to-one-hot-encode-sequence-data-in-python/ 감사합니다 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

jb8049 avatar Oct 03 '20 07:10 jb8049