1. 프로젝트 개요
지금까지 배운 내용을 통해 건강검진 정보로 음주여부를 분류하는 모델을 만들어봅니다.
국민건강보험 건강검진 정보는?
- 건강검진정보란 국민건강보험의 직장가입자와 40세 이상의 피부양자, 세대주인 지역가입자와 40세 이상의 지역가입자의 일반건강검진 결과와 이들 일반건강검진 대상자 중에 만40세와 만66세에 도달한 이들이 받게 되는 생애전환기건강진단 수검이력이 있는 각 연도별 수진자 100만 명에 대한 기본정보(성, 연령대, 시도코드 등)와 검진내역(신장, 체중, 총콜레스테롤, 혈색소 등)으로 구성된 개방데이터 중 만개의 데이터를 임의로 추출했습니다.
분류로 음주여부 예측하기
건강검진 센터에서 음주여부에 응답을 하지 않는 사람이 있다고 가정합니다.
검진 데이터를 바탕으로 음주여부를 예측한다면 건강한 생활습관을 가이드하는데 도움이 될 것 입니다.
분류기 모델을 사용해서 건강검진 데이터를 바탕으로 음주여부를 예측해 봅니다.
- EDA는 [부스트코스] 파이썬으로 시작하는 데이터 사이언스 > 4. 건강검진 데이터로 가설검정하기 를 참고해 주세요.
2. 프로젝트 요구사항
최종결과물
우리는 이미 정답 데이터를 알고있지만, 정답데이터를 모른다는 가정하에 수검자의 음주여부를 예측해 봅니다.
프로젝트 목표
머신러닝의 지도학습 기법 중 하나인 분류 모델을 만들 수 있다.
프로젝트 진행
모든 프로젝트 실습은 첨부되는 Jupyter Notebook 에서 진행되며 차례대로 한 스텝씩 진행하면 됩니다.
프로젝트를 시작하기 위해서 다음 파일을 내려받으시고, Jupyter Notebook을 실행하세요!
! 주의 !
해당 프로젝트의 진행은 꼭 Jupyter Notebook 환경에서만 진행할 수 있습니다.
아래 프로젝트 파일을 다운로드 받아 실행해주세요.
* check_util : 셀프리뷰를 위한 파일이 들어있습니다.
* data: 프로젝트에 사용할 건강검진 데이터셋으로 1만개로 샘플링되어 있습니다.
* submit : 평가기준표 항목이 들어있습니다. 프로젝트를 완료하면 평가기준표와 주피터 노트북 파일의 html 변환파일이 해당 폴더에 저장되고 submit.zip 파일이 생성됩니다.
* health-classification-project.ipynb : 프로젝트를 진행할 파일입니다. (주의 : 파일명을 변경하지 마세요.)
코드작성 구간
여러분이 작성할 코드 구간을 "[TODO] 코드 구현" 부분에 명시해두었습니다. "_________" 구간에 필요한 코드를 작성해주세요.
나머지 명시되지 않은 구간은 임의로 수정하지 마세요!
4. 프로젝트 제출방법
본 프로젝트는 2024년 8월 11일자로 리뷰 제출이 중단되었습니다. 대신 여러분 스스로 체크할 수 있는 함수를 제공하고 있습니다.
다만, 체크함수는 최소한의 요구사항만 체크할 뿐, Python 문법 등 모든 오류를 체크해주지 않는다는 것을 유의해주시길 바랍니다.
※ 동료 학습자의 원활한 학습을 위해 프로젝트 관련 소스코드 유출(SNS, Gitlab, Github)을 엄격히 금지합니다.
※ 개발환경의 버전을 맞추는 일은 서버 오류 등의 이슈를 방지할 수 있어 매우 중요합니다. 반드시 권장 버전으로 설치해 주세요.
※ 부스트코스의 프로젝트는 순차적으로 학습하도록 구성되어 있습니다. 프로젝트 진행에 참고 부탁드립니다.