EFA 탐색적 요인 분석 사전 점검 — 크론바흐 알파, KMO, 요인 수 결정 방법

인지 면접을 마치고 문항이 정비되면 이제 데이터 수집을 앞둔 마지막 관문이 남습니다. 본 조사 전에 소규모 파일럿 데이터로 탐색적 요인 분석을 실행해 문항 구조가 예상대로 작동하는지 미리 확인하는 단계입니다. 여기서 문제가 드러나면 본 조사 전에 수정할 수 있습니다. 수백 명의 데이터를 모은 뒤에 발견하는 것과는 비용이 다릅니다.

탐색적 요인 분석(EFA, Exploratory Factor Analysis)은 문항들 사이의 상관 패턴을 분석해 잠재 요인 구조를 확인하는 방법입니다. 이 단계에서는 이론으로 설계한 요인 구조가 실제 데이터에서도 나타나는지 탐색적으로 검토합니다. EFA 결과가 이론 모형과 크게 다르다면 문항을 수정하거나 구인 정의를 재검토해야 한다는 신호입니다.

EFA 전에 먼저 확인하는 두 가지 — KMO와 Bartlett 검정

EFA를 실행하기 전에 데이터가 요인 분석에 적합한지 먼저 확인해야 합니다. 두 가지 지표를 씁니다.

KMO(Kaiser-Meyer-Olkin) 지수는 변수들 사이의 편상관계수 패턴을 기반으로 요인 분석 적합성을 0에서 1 사이 값으로 나타냅니다. Kaiser의 기준에 따르면 KMO ≥ 0.6이면 분석을 진행할 수 있습니다. 0.8 이상이면 우수한 수준입니다. KMO가 0.6 미만이면 문항 간 공유 분산이 충분하지 않다는 뜻이고, 문항 구성을 재검토해야 합니다.

Bartlett의 구형성 검정은 상관행렬이 단위 행렬과 유의하게 다른지 확인합니다. 유의확률이 0.05 미만이면 변수들 사이에 충분한 상관이 있어 요인 분석을 진행할 수 있다고 판단합니다. 이 검정을 통과하지 못하면 문항들이 서로 독립적이라는 뜻이므로 공통 요인을 추출하는 것 자체가 의미 없어집니다.

지표	기준값	판단
KMO	≥ 0.6	요인 분석 진행 가능 (Kaiser)
KMO	≥ 0.8	우수
Bartlett 검정	p < 0.05	요인 분석 적합

요인 수를 결정하는 방법 — 평행 분석이 기준이다

요인 수를 결정하는 방법은 여러 가지가 있지만, 현재 가장 신뢰받는 방법은 평행 분석(Parallel Analysis)입니다. 고유값이 1 이상인 요인을 추출하는 Kaiser 기준은 요인 수를 과대 추정하는 경향이 있어 단독으로 사용하지 않는 것이 좋습니다. 스크리 도표(Scree Plot)는 시각적 판단에 의존하는 탓에 연구자마다 결론이 다를 수 있습니다.

평행 분석은 실제 데이터의 고유값을 무선 데이터에서 생성한 고유값과 비교합니다. 실제 데이터의 고유값이 무선 데이터의 고유값보다 큰 요인만 유의미한 요인으로 간주합니다. 이 방법은 표본 크기와 변수 수를 통제하면서 고유값을 비교하기 때문에 Kaiser 기준보다 정확합니다.

요인 수 결정은 통계적 기준만으로 내리는 결정이 아닙니다. 평행 분석 결과와 함께 이론적 근거, 스크리 도표, 해석 가능성을 종합해서 판단해야 합니다. 통계가 3개를 제안해도 이론적으로 2개가 맞다면 그 근거를 방법론 절에 명시하는 것이 올바른 방법입니다.

회전 방법 선택 — Promax와 Varimax

요인을 추출한 뒤에는 회전을 적용해 해석을 쉽게 만듭니다. 회전 방법은 요인들이 서로 상관될 수 있다고 가정하는지 여부에 따라 나뉩니다.

Promax(사사 회전, 사각 회전)는 요인들 사이의 상관을 허용합니다. 심리사회적 구인들은 현실에서 대체로 서로 연관되어 있습니다. 직무 만족과 조직 몰입이 완전히 독립적이라고 가정하는 것은 비현실적입니다. 이런 경우 Promax가 더 적합합니다.

Varimax(직각 회전)는 요인들이 서로 독립적이라고 가정합니다. 요인 간 상관이 이론적으로 없어야 한다면 Varimax를 씁니다.

심리측정 척도 개발에서는 Promax를 기본으로 선택하는 것이 일반적입니다. 회전 후 요인 적재량은 Hair et al.의 기준에 따라 ≥ 0.5를 충족해야 합니다.

크론바흐 알파 — 내적 합치도의 기준값과 해석

요인 구조가 확인되면 각 요인별로 내적 합치도를 점검합니다. 크론바흐 알파(Cronbach's α)는 동일한 구인을 측정하는 문항들이 얼마나 일관되게 응답되는지를 나타내는 지수입니다. Nunnally(1978)의 기준에 따라 α ≥ 0.7이 허용 기준입니다.

알파가 0.7 미만이면 해당 요인의 문항들이 충분히 일관되지 않다는 신호입니다. 이때는 CITC(교정 문항-전체 상관, Corrected Item-Total Correlation)를 확인해 문제 문항을 찾습니다. CITC ≥ 0.3에 미달하는 문항은 제거를 검토합니다. 단, 문항을 제거할 때는 통계적 기준과 함께 구인 정의상의 필요성도 함께 판단해야 합니다. 알파를 높이기 위해 구인의 의미를 좁히는 것은 피해야 합니다.

알파가 지나치게 높은 경우(α > 0.95)도 주의가 필요합니다. 문항들이 너무 비슷한 내용을 반복하는 문항 중복(item redundancy)의 신호일 수 있습니다.

지표	기준값	출처
크론바흐 알파	≥ 0.7	Nunnally (1978)
요인 적재량	≥ 0.5	Hair et al.
CITC	≥ 0.3

EFA와 CFA의 순서

EFA와 CFA는 독립된 표본에서 실행하는 것이 원칙입니다. 같은 데이터로 EFA를 통해 구조를 탐색한 뒤 같은 데이터로 CFA를 실행하면 과적합이 발생해 검증의 의미가 없어집니다. 파일럿 데이터로 EFA를 진행하고, 본 조사 데이터의 독립 표본으로 CFA를 실행하는 것이 권장 절차입니다.

표본 크기가 충분하다면 본 조사 데이터를 두 집단으로 무선 분할해 한 쪽으로 EFA, 다른 쪽으로 CFA를 실행하는 방법도 씁니다.

modidoc의 사전 시뮬레이션 단계

modidoc의 사전 시뮬레이션 단계는 파일럿 데이터를 입력하면 KMO, Bartlett 검정, 평행 분석, EFA 결과, 요인별 크론바흐 알파를 자동으로 산출합니다. CITC 기준 미달 문항을 표시하고 수정 방향을 제안하며, 이론 모형과 EFA 결과의 일치 여부를 비교 요약합니다. 이 과정은 내부적으로 C4 사전 시뮬레이션 엔진으로 구현되어 있습니다.

modidoc.com에서 무료로 시작해 보실 수 있습니다.

자주 묻는 질문

EFA와 CFA 순서는 어떻게 되나요

EFA를 먼저 실행해 요인 구조를 탐색하고, 독립된 표본에서 CFA로 검증하는 순서입니다. 같은 데이터로 EFA와 CFA를 함께 실행하면 과적합이 발생해 검증 결과를 신뢰하기 어렵습니다. 파일럿 데이터로 EFA, 본 조사 데이터로 CFA를 실행하거나, 본 조사 데이터를 두 집단으로 무선 분할해 사용합니다.

크론바흐 알파 기준값은 얼마인가요

Nunnally(1978)의 기준에 따라 α ≥ 0.7이 허용 기준입니다. 0.7 미만이면 해당 요인의 문항들이 일관되지 않다는 신호로, CITC ≥ 0.3 미달 문항을 확인해 제거를 검토합니다. 반대로 α > 0.95는 문항 중복을 의심해야 합니다.

KMO 값이 낮으면 어떻게 해야 하나요

KMO가 0.6 미만이면 요인 분석을 진행하기 전에 문항 구성을 재검토해야 합니다. 특정 문항이 다른 문항들과 공유 분산이 없다면 그 문항이 독립적인 개념을 측정하고 있거나, 문항 자체의 문제일 수 있습니다. 문제 문항을 제거한 뒤 KMO를 다시 확인하는 것이 일반적인 절차입니다.

요인 수를 결정하는 방법은 무엇인가요

평행 분석이 현재 가장 신뢰받는 방법입니다. 실제 데이터의 고유값이 무선 데이터에서 생성한 고유값보다 큰 요인만 유의미하다고 판단합니다. Kaiser 기준(고유값 ≥ 1)은 요인 수를 과대 추정하는 경향이 있어 단독 사용을 피하고, 평행 분석 결과와 이론적 근거, 해석 가능성을 종합해서 결정합니다.

다음 단계

EFA로 요인 구조가 확인되고 내적 합치도 기준도 충족됐다면, 이제 본 조사 데이터로 구조의 타당성을 정밀하게 검증할 차례입니다. 다음 글에서는 확인적 요인 분석(CFA)을 실행하고 CFI, RMSEA, SRMR 적합도 지수를 해석하며, AVE와 HTMT로 수렴 타당도와 판별 타당도를 검증하는 방법을 다룹니다.

이전 글: 인지 면접이란? 설문 문항이 응답자에게 다르게 읽히는 문제를 해결하는 방법

다음 글: CFA 적합도 지수, 기준 미달이면 어떻게 하나요 — CFI RMSEA SRMR 판단 완전 가이드