MIT Data Science 강의 Chapter 7. Confidence Intervals에 오신 여러분 환영합니다!
저번 강의에서 몬테 카를로 시뮬레이션 방법에 대해 공부했습니다.
오늘은 Confidence Intervals와 PDF, 중심 극한 정리에 대해 공부합니다.
*이번 강의부터 사용되는 라이브러리 numpy는 좌측에 있는 Miniconda로 설치하시면 편합니다.
핵심 키워드
- PDF(확률 밀도 함수)
- 중심 극한 정리(Central Limit Theorem)
학습하기
학습 내용
경험적인 규칙의 전제
- 지난 강의에서 나온 경험적인 규칙의 전제
- 평균 추정 오차는 0
- 오차의 분포는 정규분포(가우스 분포)
확률 밀도 함수(PDF)
- 분포는 확률밀도함수로 정의
- 이 함수로 어떤 확률변수가 임의의 두 값 사이에 있을 확률을 구할 수 있음
- 이것은 최소부터 최대값 사이에 놓여있는 x축의 값을 가진 곡선으로 정의
- 두 값 사이의 곡선 아래의 넓이가 그 범위안에 속해있을 확률을 도출
- 누적분포함수의 도함수
- 구하려는 것 : 어떠한 값이 표시한 범위 내에 해당할 확률을 구하고 싶으면 확률은 이 곡선 하단의 면적이자 적분 값
중심 극한 정리(CLT, central limit theorem)
- 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 정리
- 우리의 현실은 모든 분포가 정규분포는 아님
- 충분한 표본을 가지고 있다면 표본의 평균값은 대략적으로 정규 분포
- 원래 값의 분포도 모양은 상관이 없음
- 충분히 큰 표본의 평균을 측정한다면 CLT(중심극한정리)는 신뢰구간을 계산하는데 경험적인 규칙을 사용할 수 있도록 함
- 원주율 구하는 예시
- 원의 둘레를 지름으로 나눈 값
- 많은 바늘들을 임의로 떨어트림
- 어디에 떨어졌는지 보고, 몇개는 정사각형 안이지만 원 안에 떨어지는 것도 있음
- 원 안의 바늘과 정사각형 안의 바늘의 비율은 정사각형의 면적과 원의 면적의 비율과 정확하게 일치할 것
- 파이는 정사각형의 넓이를 정사각형 안의 바늘의 갯수로 나눈 값
- 논리 : 많은 바늘을 떨어트린 후, 떨어진 위치를 보고 더하여 그 값으로 신기하게도 실제 파이 값을 알 수 있음
- 1의 확률로 실제 파이의 값이 두 값 사이에 있는 말은 사실
- 0.95의 확률로 실제 파이의 값은 두 값 사이에 있다는 말도 사실