엑셀을 활용한 데이터분석 - EDA
기초통계
구분 | 함수 | 구분 | 함수 |
평균 | average | IQR | (Q3-Q1) |
중앙값 | median | 이상치(하한) | Q1-1.5*IQR |
분산 | var.s | 이상치(상한) | Q3+1.5*IQR |
표준편차 | stdev | 수염(하한) | (”이상치 하한<최소값”일 경우, 최소값으로, 아닐경우 이상치 하한으로 설정) |
최소값(Q1) | min | 수염(상한) | (”이상치 상한>최대값”일 경우 최대값으로, 아닐경우 이상치 상한으로 설정) |
Q1 | quartile.inc | 왜도 | skew |
Q2 | quartile.inc | 첨도 | kurt |
Q3 | quartile.inc | n | count |
최대값(Q4) | max |
- 이상치 상/하한과 수염의 상/하한은 다르다
- 수염의 하한 : 이상치 하한과 최솟값 중 큰 값
- 수염의 상한 : 이상치 상한과 최댓값 중 작은 값
왜도와 첨도
- 왜도(skewness, 비대칭도) : 분포의 좌우 쏠림 정도
- positive skey : median < mean
- negative skew : mean < median
- 왜도를 공식에 따라 엑셀로 계산해 보자
- 첨도( kurtosis ), 분포의 꼬리가 얼마나 늘어지는가(데이터가 얼마나 중앙에 몰려있는가)
첨도 공식 - 첨도값이 3에 가까울수록 정규분포에 가깝다
- 위 첨도 공식을 엑셀로 계산해보자.
엑셀 데이터 분석 도구, 해 찾기
- 데이터 분석 도구
- 상관분석 예시
- 데이터 분석 도구의 상관분석은 피어슨 상관분석이다.
→ 음수를 가진다고 해서 상관이 없는 것은 아니므로, 절댓값을 기준으로 상관여부를 파악해야 함 (음의 상관관계를 가진다.)→ 거래금액과 전용면적의 상관관계가 가장 크다
- 데이터 분석 도구의 상관분석은 피어슨 상관분석이다.
- 상관계수
- -1(음의 상관관계) ≤ 상관계수 ≤ 1(양의 상관관계)
- -1 : 음의 상관관계 / 0 : 상관관계없음 / 1 : 양의 상관관계
- 피어슨 상관계수 : 어떤 기준점에서 x와 y가 얼마나 같이 움직이는가
상관계수 공식 위 식을 엑셀로 계산한 과정
- -1(음의 상관관계) ≤ 상관계수 ≤ 1(양의 상관관계)
2. 해 찾기
- 변수 셀을 자동으로 변경하여 목표를 대상에 맞게 조정
해 찾기 과정 (목표 셀과 변수 셀을 설정하고, 정해진 대상에 맞게 해 찾기 진행) → Squared Error를 최소로 하는 가중치(기울기)를 찾는 과정해 찾기 결과
대용량 데이터 처리 - PowerQuery
* 버전 이슈로 수업 진행은 못했지만, 아래 링크를 통해 자세한 내용을 확인할 수 있을 것이다.
0. 엑셀 파워쿼리(Power Query) 소개
엑셀 파워쿼리(Power Quwery)는 데이터 수집, 전처리, 통합을 지원하는 대표적인 MS사의 엑셀 확장기능입니다. 피벗테이블을 쓸 때 사용하는 DAX(Data Analysi…
wikidocs.net
- 빅데이터(100 만행 이상) 처리 가능
- 웹 크롤링, API 통신 가능
- 데이터 처리 자동화 가능(전처리 방법 등)
- 반복문 불가능의 한계
- Power BI와 호환 가능
Today's log...
Q1==최솟값, Q4==최댓값이라고 배웠지만, 엑셀 함수 상 반대로 기재되어 혼란을 야기함..
버전 문제인지 엑셀의 오류였던 것이다 ,,
'대외활동 > [부트캠프] 빅데이터 분석가 과정' 카테고리의 다른 글
[Python] 02-3. Python 기초 - 조건문과 반복문 (0) | 2024.04.01 |
---|---|
[Python] 02-2. Python 기초 - 여러 가지 자료형 (2) | 2024.03.31 |
[Python] 02-1. Python 기초 - 변수, 멀티할당 (1) | 2024.03.31 |
[Excel] 01-3. 엑셀로 이해하는 인공지능 - KNN, 회귀분석 (0) | 2024.03.26 |
[Excel] 01-1. 엑셀을 활용한 데이터분석 - 엑셀함수 (0) | 2024.03.22 |