- 최신순
KT AICE BASIC 종합 (이론+실습) > 강의소개 > 강의 자료
강의자료 다운로드 후, 진도 체크 안됨
강의 수료증 발급 요청
minjeong_suh@naver.com
[녹화본] AICE BASIC 10월 유료특강 녹화 > 삭제된 챕터 > 삭제된 레슨
실제 시험에서 아웃풋에 변수를 넣었는데 아무리 돌려도 결과가 안나오더라구요. 설명해주실 때 나오는 "파랑색"표시가 안되어서 그랬는가 싶어서요.
[녹화본] AICE Associate 10월 유료특강 녹화 > 삭제된 챕터 > 삭제된 레슨

안녕하세요! AICE Associate 연습문제 1번(은행 고객 이탈)을 풀다가 결측치 처리 방식에 대해 의문이 생겨 질문드립니다.
문제 9번에서 결측치를 처리할 때, Tenure(거래 연수)와 IsActiveMember(활동 회원 여부) 컬럼에 대한 접근 방식이 궁금합니다.
1. 저의 분석
IsActiveMember는 값이 0과 1로만 이루어진 명목형 범주 데이터입니다.Tenure는 0, 1, 2...처럼 정수로 끊어지는 이산형 수치 데이터로, 사실상 범주형 데이터의 성격을 가집니다.
따라서 이 두 컬럼의 결측치는 데이터의 의미를 고려했을 때, 각 컬럼의 최빈값(Mode)으로 대체하는 것이 더 통계적으로 합리적이라고 생각했습니다.
2. 강의/해설의 방식
제가 참고한 풀이에서는 dtype이 int라는 점을 기준으로 모든 수치형 컬럼의 결측치를 한 번에 중앙값(Median)으로 일괄 처리했습니다. (df.fillna(df.median()))
3. 핵심 질문
결측치 처리는 이후의 스케일링, 모델 학습, 평가 등 모든 과정에 영향을 미치는 중요한 단계라고 생각합니다.
이 경우, 데이터의 타입(
dtype)보다는 실제 의미를 기준으로 최빈값을 사용하는 것이 더 정확한 분석 방법이 아닌가요?특히
Tenure컬럼은 중앙값(5.0)과 최빈값(1.0)의 차이가 큰데, 이 선택이 모델의 최종 성능에 유의미한 차이를 만들 수 있을까요?이 풀이 방식이 오답으로 처리되는지,
이 문제가 오답으로 처리된다면 이후의 문제에도 영향을 끼쳐 전부 오답처리되는지 궁금합니다.
KT AICE BASIC 종합 (이론+실습) > Kaggle 데이터 분석 및 모델링 실습 > BASIC 시험대비 1
KT AICE BASIC 종합 (이론+실습) > Kaggle 데이터 분석 및 모델링 실습 > BASIC 시험대비 1
오늘은 어떤 문제가 있으신가요?