본문 바로가기

기초통계

[기초통계스터디] 확률변수의 기댓값 E(X)에 대하여 안녕하세요 오늘은 어렸을 적 얼핏 들어봤던 익숙하지만 먼 단어인 기댓값에 대해 스터디 해보도록 할게요! 확률변수의 기댓값은 다음에 나올 값에 대한 우리의 기댓값이라고 정의할 수 있는데요. 구하는 방법은 SUM(확률변수가 가질 수 있는 값 * 대응하는 확률)입니다. 식으로 보면 어려운데, 예시를 들면 참 쉽습니다. 어떤 확률변수가 0이 나올 확률이 0.4, 1이 나올 확률이 0.6이라고 할 때 기댓값은 0 * 0.4 + 1* 0.6 = 0.6 즉, 기댓값은 0.6이 되는 것이지요! 개념을 이해했다면 적용을 해볼게요! 다음, 이산형 확률변수의 기댓값을 구해보겠습니다. X P(X) 0 0.3 1 0.5 2 0.01 => 0*0.3 + 1*0.5 + 2*0.01 = 0.52가 되겠죠? 그러면 연속형 균일확률 변.. 더보기
[기초통계스터디] IQR로 파악해보는 이상적 데이터 분포범위는? 오늘은 통계에서 분포의 퍼짐을 나타내주는 IQR에 대해 스터디 해보도록 할게요! IQR(interquartile range)이란? 1사분위값과 3사분위값의 차이를 말하는데요. 공식으로는 3Q(75%값) - 1Q(25%값)입니다. IQR은 분포의 퍼짐을 나타내줍니다. 당연히 IQR이 클수록 분포가 넓게 퍼져있는 것이겠죠? 근데 분포의 퍼짐을 보다보면 일반적인 데이터 범위의 분포를 벗어나는 것들이 있을 껀데요. 이를 '이상치'라고 합니다. 이상치는 보통 IQR * 1.5를 넘어간 값으로 찾습니다. 아래 그림을 보시면 IQR이 3.5인 것을 알 수 있고( 6 - 2.5 = 3.5) 이상적 표본 분포는 IQR*1.5인 5.25인 것을 알 수 있습니다( 3.5 * 1.5 = 5.25) 1분위값 2.5 - 5.25.. 더보기
[기초통계] 표본분산과 표본 표준편차 쉽게 이해하기 '표본분산'은 분포의 퍼짐을 잡아내는 통계지표로 우리는 표본분산을 통해 각 표본이 중심으로부터 떨어져있는 거리를 측정할 수 있습니다. 표본 분산 공식은 아래처럼 복잡합니다. 근데 예시를 들면, 사실 어렵지 않습니다. 가령, 표본이 1,2,3,4,5라고 할때, 표본의 중심은 3이되는데 각 표본이 3으로부터 떨어져 있는 거리를 측정하고 싶다면 다음과 같이 나타낼 수 있을 것입니다. 1-3 = -2 2-3 = -1 3-3 = 0 4-3 = 1 5-3 = 2 근데 문제는 마이너스값이 있어서 거리를 표현할 수 없기 때문에 우리는 각 수를 제곱해줍니다. 제곱을 해준다는것은 넓이가 되는 것이겠죠? 그러면 4, 1, 0, 1, 2가 되고 이 값을 다 더하면 8이됩니다. 8을 총 표본의 개수 N- 1값인 4로 나눠주면 .. 더보기