대외활동/[부트캠프] 빅데이터 분석가 과정

[Excel] 01-2. 엑셀을 활용한 데이터분석 - EDA

셈뇽 2024. 3. 26. 00:01
엑셀을 활용한 데이터분석 - EDA

 

기초통계
구분 함수 구분 함수
평균 average IQR (Q3-Q1)
중앙값 median 이상치(하한) Q1-1.5*IQR
분산 var.s 이상치(상한) Q3+1.5*IQR
표준편차 stdev 수염(하한) (”이상치 하한<최소값”일 경우, 최소값으로, 아닐경우 이상치 하한으로 설정)
최소값(Q1) min 수염(상한) (”이상치 상한>최대값”일 경우 최대값으로, 아닐경우 이상치 상한으로 설정)
Q1 quartile.inc 왜도 skew
Q2 quartile.inc 첨도 kurt
Q3 quartile.inc n count
최대값(Q4) max    

 

  • 이상치 상/하한과 수염의 상/하한은 다르다
    • 수염의 하한 : 이상치 하한과 최솟값 중 큰 값
    • 수염의 상한 : 이상치 상한과 최댓값 중 작은 값

 

왜도와 첨도
  • 왜도(skewness, 비대칭도) : 분포의 좌우 쏠림 정도
    • positive skey : median < mean
    • negative skew : mean < median
    • 왜도를 공식에 따라 엑셀로 계산해 보자
  • 첨도( kurtosis ), 분포의 꼬리가 얼마나 늘어지는가(데이터가 얼마나 중앙에 몰려있는가)
    첨도 공식
    •  첨도값이 3에 가까울수록 정규분포에 가깝다
    • 위 첨도 공식을 엑셀로 계산해보자.
엑셀 데이터 분석 도구, 해 찾기
  1. 데이터 분석 도구

데이터 분석도구 위치

  • 상관분석 예시
    • 데이터 분석 도구의 상관분석은 피어슨 상관분석이다.
      → 음수를 가진다고 해서 상관이 없는 것은 아니므로, 절댓값을 기준으로 상관여부를 파악해야 함 (음의 상관관계를 가진다.)→ 거래금액과 전용면적의 상관관계가 가장 크다
  • 상관계수
    • -1(음의 상관관계) ≤ 상관계수 ≤ 1(양의 상관관계)
      • -1 : 음의 상관관계 / 0 : 상관관계없음 / 1 : 양의 상관관계  
    • 피어슨 상관계수 : 어떤 기준점에서 x와 y가 얼마나 같이 움직이는가
      상관계수 공식
      위 식을 엑셀로 계산한 과정


2. 해 찾기

  • 변수 셀을 자동으로 변경하여 목표를 대상에 맞게 조정
    해 찾기 과정 (목표 셀과 변수 셀을 설정하고, 정해진 대상에 맞게 해 찾기 진행)
    해 찾기 결과
    → Squared Error를 최소로 하는 가중치(기울기)를 찾는 과정
대용량 데이터 처리 - PowerQuery

* 버전 이슈로 수업 진행은 못했지만, 아래 링크를 통해 자세한 내용을 확인할 수 있을 것이다.

👉 https://wikidocs.net/162980

 

0. 엑셀 파워쿼리(Power Query) 소개

엑셀 파워쿼리(Power Quwery)는 데이터 수집, 전처리, 통합을 지원하는 대표적인 MS사의 엑셀 확장기능입니다. 피벗테이블을 쓸 때 사용하는 DAX(Data Analysi…

wikidocs.net

  • 빅데이터(100 만행 이상) 처리 가능
  • 웹 크롤링, API 통신 가능
  • 데이터 처리 자동화 가능(전처리 방법 등)
  • 반복문 불가능의 한계
  • Power BI와 호환 가능

 

 

Today's log...

Q1==최솟값, Q4==최댓값이라고 배웠지만, 엑셀 함수 상 반대로 기재되어 혼란을 야기함..
버전 문제인지 엑셀의 오류였던 것이다 ,,