기초 통계

[기초통계스터디] IQR로 파악해보는 이상적 데이터 분포범위는?

봉쥬르최강사 2021. 8. 29. 19:08

오늘은 통계에서 분포의 퍼짐을 나타내주는 IQR에 대해 스터디 해보도록 할게요!

 

IQR(interquartile range)이란?

1사분위값과 3사분위값의 차이를 말하는데요. 공식으로는 3Q(75%값) - 1Q(25%값)입니다. 

IQR은 분포의 퍼짐을 나타내줍니다. 당연히 IQR이 클수록 분포가 넓게 퍼져있는 것이겠죠?

 

근데 분포의 퍼짐을 보다보면 일반적인 데이터 범위의 분포를 벗어나는 것들이 있을 껀데요.

이를 '이상치'라고 합니다.

 

이상치는 보통 IQR * 1.5를 넘어간 값으로 찾습니다.

아래 그림을 보시면 IQR이 3.5인 것을 알 수 있고( 6 -  2.5 = 3.5) 

이상적 표본 분포는 IQR*1.5인 5.25인 것을 알 수 있습니다( 3.5 * 1.5 = 5.25)

1분위값 2.5 - 5.25 = -2.25이고 3분위값 6 + 5.24 = 11.25이기 때문에

-2.25 ~ 11.25가 이상적 데이터 분포 범위라고 볼 수 있겠죠?

 

그래서 표본 1,2,3,3,4,5,5,7,20 중에 20을 이상치로 판단할 수 있습니다.