인공지능
사이킷런
scikit-learn
표준화
최소최대변환
데이터 전처리 : 특성의 스케일 조정하기
세상의 데이터들은 자신들만의 기준과 단위가 있습니다. 그렇기 때문에 값이 천차만별이죠. 예를 들어 어떤 옷들의 무게는 100~120g 정도 되는데 가격은 150000~250000원 정도의 분포를 가진다고 생각을 해봅시다. …
인공지능
사이킷런
scikit-learn
데이터 전처리: 훈련 셋과 테스트 셋 나누기
데이터의 전처리가 끝났다면 데이터를 훈련용 데이터와 테스트용 데이터로 나누어야 합니다.
그래야 훈련용 데이터로 훈련하고 테스트용 데이터로 그 모델의 성능을 검증할 수 있기 때문이죠.
사이킷런의 train_test_split …
인공지능
one-hot
데이터 전처리: 범주형 데이터 다루기(순서 매핑, one-hot 인코딩)
훈련 데이터의 모든 값들이 수치로 나타나 있다면 훈련을 진행하기에 정말 편할것입니다. 그렇지만 모든 데이터가 그렇지는 않습니다. 이럴때는 데이터를 수치화 해야 합니다.
이번 포스트에서는 그 중에서도 …
인공지능
결측치
보간
interpolate
Nan
null
데이터 전처리: 누락된 데이터 처리
인공지능 모델을 훈련시키기 위해서는 잘 짜여진 모델도 중요하지만 그에 못지 않게 훈련 데이터도 중요합니다. 사실 성능이 좋은 모델들은 이미 많이 개발이 되어있고 사용하기도 쉽기 때문에 …