본문 바로가기

전체 글

GA4_스크롤 트래킹입니다. 보호되어 있는 글입니다. 더보기
[python스터디] groubpy 와 pivot_table 결과값 차이점 안녕하세요 오늘은 데이터 분석시 많이 쓰이는 groupby와 pivot_table의 차이점에 대해 스터디 해보도록 할게요!! 아래와 같은 데이터프레임이 있는데요. 저희는 시군구명, 브랜드명별로 상호명을 세어 보도록 하겠습니다. 한가지 팁을 드리자면, ~~~별이 나오면 00별 기준으로 groupby나 pivot_table을 사용하시면 됩니다. 예를 들어, 지역별, 연령별이면 df.groupy('지역'), pd.pivot_table(index = '연령') 이런식으로 써주시면 됩니다. 그러면 바로 결과 확인해볼게요! groupby로 하면 아래와 같이 시리즈 파일로 나와서 reset_index()를 통해서 데이터프레임으로 만들어줍니다. df_cafe_vs = df_cafe.groupby(['시군구명','브랜드.. 더보기
[머신러닝] 머신러닝이란? 지도학습/비지도학습/강화학습 안녕하세요 오늘은 머신러닝에 대해 스터디해보려고 합니다. AI, 인공지능이라는 단어는 매스컴을 통해 벌써 많이 접하셨을텐데요. 머신러닝은 간접적으로 들어봤을 수도 있고 , 못 들어보신 경우가 더 많을껍니다. 그러면 머신러닝이 무엇인지부터 살펴볼텐데요. 머신러닝 안에는 딥러닝이라는 분야가 또 있는데요. 이 둘의 결정적인 차이는 데이터의 스스로 학습여부입니다. 머신러닝은 우리가 직접 학습 시켜야 하고 딥러닝은 데이터를 주면 특징을 파악해서 스스로 학습을 합니다. 머신러닝에는 지도학습/비지도학습/강화학습이 있는데요. 지도학습과 비지도학습의 가장 큰 차이는 타겟값 Y의 유무입니다. (X값을 입력함으로써 얻게되는 값을 Y값이라고 생각하면 되겠습니다.) 지도학습은 타겟값이 있고 x값을 독립변수, y값을 종속변수라고.. 더보기
[기초통계스터디] 확률변수의 기댓값 E(X)에 대하여 안녕하세요 오늘은 어렸을 적 얼핏 들어봤던 익숙하지만 먼 단어인 기댓값에 대해 스터디 해보도록 할게요! 확률변수의 기댓값은 다음에 나올 값에 대한 우리의 기댓값이라고 정의할 수 있는데요. 구하는 방법은 SUM(확률변수가 가질 수 있는 값 * 대응하는 확률)입니다. 식으로 보면 어려운데, 예시를 들면 참 쉽습니다. 어떤 확률변수가 0이 나올 확률이 0.4, 1이 나올 확률이 0.6이라고 할 때 기댓값은 0 * 0.4 + 1* 0.6 = 0.6 즉, 기댓값은 0.6이 되는 것이지요! 개념을 이해했다면 적용을 해볼게요! 다음, 이산형 확률변수의 기댓값을 구해보겠습니다. X P(X) 0 0.3 1 0.5 2 0.01 => 0*0.3 + 1*0.5 + 2*0.01 = 0.52가 되겠죠? 그러면 연속형 균일확률 변.. 더보기
[기초통계스터디] IQR로 파악해보는 이상적 데이터 분포범위는? 오늘은 통계에서 분포의 퍼짐을 나타내주는 IQR에 대해 스터디 해보도록 할게요! IQR(interquartile range)이란? 1사분위값과 3사분위값의 차이를 말하는데요. 공식으로는 3Q(75%값) - 1Q(25%값)입니다. IQR은 분포의 퍼짐을 나타내줍니다. 당연히 IQR이 클수록 분포가 넓게 퍼져있는 것이겠죠? 근데 분포의 퍼짐을 보다보면 일반적인 데이터 범위의 분포를 벗어나는 것들이 있을 껀데요. 이를 '이상치'라고 합니다. 이상치는 보통 IQR * 1.5를 넘어간 값으로 찾습니다. 아래 그림을 보시면 IQR이 3.5인 것을 알 수 있고( 6 - 2.5 = 3.5) 이상적 표본 분포는 IQR*1.5인 5.25인 것을 알 수 있습니다( 3.5 * 1.5 = 5.25) 1분위값 2.5 - 5.25.. 더보기
[기초통계] 표본분산과 표본 표준편차 쉽게 이해하기 '표본분산'은 분포의 퍼짐을 잡아내는 통계지표로 우리는 표본분산을 통해 각 표본이 중심으로부터 떨어져있는 거리를 측정할 수 있습니다. 표본 분산 공식은 아래처럼 복잡합니다. 근데 예시를 들면, 사실 어렵지 않습니다. 가령, 표본이 1,2,3,4,5라고 할때, 표본의 중심은 3이되는데 각 표본이 3으로부터 떨어져 있는 거리를 측정하고 싶다면 다음과 같이 나타낼 수 있을 것입니다. 1-3 = -2 2-3 = -1 3-3 = 0 4-3 = 1 5-3 = 2 근데 문제는 마이너스값이 있어서 거리를 표현할 수 없기 때문에 우리는 각 수를 제곱해줍니다. 제곱을 해준다는것은 넓이가 되는 것이겠죠? 그러면 4, 1, 0, 1, 2가 되고 이 값을 다 더하면 8이됩니다. 8을 총 표본의 개수 N- 1값인 4로 나눠주면 .. 더보기
[python스터디] 상관관계 시각화를 통해 변수를 추출해보자! 안녕하세요. 지난 시간에는 변수간의 양과 음에 상관관계에 대한 가설을 하고 이를 다음과 같은 순서로 검증해보았는데요. 2021.08.27 - [파이썬 데이터 분석] - [python스터디] 머신러닝/비지도학습/차원축소 Feature Selection(변수선택) [python스터디] 머신러닝/비지도학습/차원축소 Feature Selection(변수선택) 안녕하세요 오늘은 머신러닝 스터디 중 비지도학습을 위한 차원축소의 방법으로 '변수선택'을 스터디 해보도록 하겠습니다. 차원축소를 하는 이유는? 3차원(x,y,z축)그래프를 2차원으로 만든다고 data-marketings.tistory.com 오늘은 상관관계를 barplot으로 시각화해배고 이를통해 추출할 변수와 제거할 변수를 찾아보겠습니다. 변수는 다음과 .. 더보기
[python스터디] 머신러닝/비지도학습/차원축소 Feature Selection(변수선택) 안녕하세요 오늘은 머신러닝 스터디 중 비지도학습을 위한 차원축소의 방법으로 '변수선택'을 스터디 해보도록 하겠습니다. 차원축소를 하는 이유는? 3차원(x,y,z축)그래프를 2차원으로 만든다고 이해하시면 되는데요. 그 이유는 첫번째로 시각적으로 보기 쉽게하기 위한 이유가 있고요. 두번째로 X,Y,Z축을 PC1, PC2 2개축으로 변환함에 따라 새로운 변수가 생기기 때문이고요. 마지막으로 빅데이터는 한개 컬럼만해도 로우값이 100만개에 달한답니다. 변수/특징이 많아지면 이를 채우기 위한 데이터도 많아져야하는데, 여기서 차원의 저주라고 하는 데이터의 문제가 발생할 수 있기 때문죠. 그래서 우리는 차원축소의 방법으로 변수선택(Feature Selection)을 실습해보려고 합니다. 변수선택은 한마디로 의미있는 .. 더보기