통계기초

1 minute read

1. 확률변수

어떤 시행에서 표본공간의 각 원소에 하나의 실수가 대응되는 함수를 확률변수라고 한다.

  • 이산 확률변수 : 셀 수 있는 확률변수
    • ex. 하루 교통사고 건수, 공장에서 생산되는 제품의 개수
  • 연속 확률변수 : 구간 내 연속적인 값인 확률변수
    • ex. 온도, 습도

2. 확률분포

확률변수가 특정 값을 가질 확률을 나타내는 함수를 확률분포라고 한다.

  • 이산 확률분포 : 이산 확률변수의 확률분포. 확률질량함수
    • ex. 이산균등분포, 초기하분포, 이항분포, 포아송분포
  • 연속 확률분포 : 연속 확률변수의 확률분포. 확률밀도함수
    • ex. 정규분포(가우시안분포), t분포, f분포, 카이제곱분포

3. 신뢰도, 타당도

  • 신뢰도 : 일관된 수치가 나오는가?
    • ex. 저울로 측정한 결과가 항상 다르다면…?
  • 타당도 : 측정 대상을 잘 측정하고 있는가?
    • ex. 몸무게를 줄자로 측정…?

4. 대푯값

  • 평균값 : 데이터 값을 모두 더해 데이터 개수로 나눈 값. 가장 빈번하게 사용되는 대푯값이지만 극단값의 영향을 크게 받을 수 있음
    • 일정 비율의 가장 큰 값과 작은 값을 제외하고 평균을 내는 절사평균을 대안으로 사용하기도 함
  • 중앙값 : 크기 순으로 나열했을 때 중간에 위치한 값. 짝수 개의 데이터에서는 중간 두 개의 평균이 중앙값
  • 최빈값 : 가장 많이 등장하는 값

5. 척도의 종류

  • 명목척도
    • 구분을 목적으로 사용되는 척도. 숫자의 양적인 의미는 없음
    • ex. 남자, 여자
  • 서열척도
    • 측정 대상간의 높고 낮음, 순서에 대한 값 부여
    • ex. 상위, 중위, 하위
  • 등간척도
    • 순서 사이의 간격이 균등한 척도, 가감산 연산 가능
    • ex. 리커트 5점, 7점 척도
  • 비율척도
    • 절댓값(0)이 존재하는 척도, 연산 가능
    • ex. 자녀 수가 몇 명?

6. 분석 기법 with 척도의 종류

  • 빈도분석
    • 인구통계적 특성 제시
    • 모든 척도
  • 교차분석(카이제곱)
    • 변수 간의 분포와 백분율을 나타내주는 교차표를 작성하고 두 변수 간의 독립성과 관련성을 분석
    • 명목척도, 서열척도
  • 요인분석
    • 측정하려는 변수들의 상관관계가 높은 것들끼리 묶어서 변수를 단순화 하는 데에 사용. 잘못 적재된 변수나 설명력 부족한 변수를 제거하기도 함
    • 등간척도, 비율척도
  • 상관관계
    • 두 변수들 간의 관련성에 대한 분석
    • 등간척도/비율척도(피어슨), 서열척도(스피어만)
  • 회귀분석
    • 독립변수가 종속변수에 어떤 영향을 미치는지 파악
    • 등간척도, 비율척도
  • t-검정
    • 종속변수에 대한 독립변수의 집단 간 평균의 차이를 검정. 2개 집단
    • 명목척도(독립변수), 등간척도/비율척도(종속변수)
  • 분산분석(ANOVA)
    • 종속변수에 대한 독립변수의 집단 간 평균의 차이를 검정. 3개 집단 이상
    • 명목척도(독립변수), 등간척도/비율척도(종속변수)

cf) 독립/종속변수의 자료 형태에 따른 분석기법

영향을 주는 변수 영향을 받는 변수 통계분석방법
범주형 범주형 카이제곱 검정
  연속형 T검정, 분산분석
연속형 범주형 로지스틱 회귀분석
  연속형 회귀분석, 구조방정식

Leave a comment