BLOG 인공지능
인공지능

데이터 전처리 : 순차적 특성 선택

모델을 훈련하다 보면 훈련셋에서의 성능이 테스트셋에서의 성능보다 많이 높게 나오는 경우가 있습니다. 즉, 일반화 성능이 안좋은 것인데요. 모델이 훈련셋에 과대적합 되었기 때문에 이러한 일이 발생하게 …

인공지능

데이터 전처리 : 특성의 스케일 조정하기

세상의 데이터들은 자신들만의 기준과 단위가 있습니다. 그렇기 때문에 값이 천차만별이죠. 예를 들어 어떤 옷들의 무게는 100~120g 정도 되는데 가격은 150000~250000원 정도의 분포를 가진다고 생각을 해봅시다. …

사이킷런 scikit-learn 표준화 최소최대변환
인공지능

데이터 전처리: 훈련 셋과 테스트 셋 나누기

데이터의 전처리가 끝났다면 데이터를 훈련용 데이터와 테스트용 데이터로 나누어야 합니다.

그래야 훈련용 데이터로 훈련하고 테스트용 데이터로 그 모델의 성능을 검증할 수 있기 때문이죠.

사이킷런의 train_test_split …

사이킷런 scikit-learn
인공지능

데이터 전처리: 범주형 데이터 다루기(순서 매핑, one-hot 인코딩)

훈련 데이터의 모든 값들이 수치로 나타나 있다면 훈련을 진행하기에 정말 편할것입니다. 그렇지만 모든 데이터가 그렇지는 않습니다. 이럴때는 데이터를 수치화 해야 합니다.

이번 포스트에서는 그 중에서도 …

one-hot
인공지능

데이터 전처리: 누락된 데이터 처리

인공지능 모델을 훈련시키기 위해서는 잘 짜여진 모델도 중요하지만 그에 못지 않게 훈련 데이터도 중요합니다. 사실 성능이 좋은 모델들은 이미 많이 개발이 되어있고 사용하기도 쉽기 때문에 …

결측치 보간 interpolate Nan null
Search