1. 레퍼런스 체크: 통계학적 근거
가장 권위 있는 통계학 교재(예: Introduction to Linear Regression Analysis by Montgomery 등)와 데이터 분석 가이드에서 공통으로 정의하는 **VIF(Variance Inflation Factor)**의 정의는 다음과 같아.
"VIF는 다중공선성으로 인해 회귀계수 추정치의 분산이 얼마나 증가(팽창)하는지를 나타내는 척도이다."
수식적 증거
회귀계수 $\hat{\beta_j}$의 분산 공식은 다음과 같아:
$$Var(\hat{\beta_j}) = \frac{\sigma^2}{\sum(x_{ij} - \bar{x_j})^2} \times \frac{1}{1 - R_j^2}$$
여기서 뒤에 붙은 $\frac{1}{1 - R_j^2}$이 바로 VIF야.
독립변수 간 상관관계가 높으면 $R_j^2$가 1에 가까워져.
그러면 분모가 작아지면서 VIF 값이 무한대로 커져.
결과적으로 회귀계수의 분산($Var$)이 직접적으로 증가하게 돼.
2. Llama 해설이 틀린 이유 조목조목 반박
Llama가 말한 논리에는 두 가지 치명적인 오류가 있어.
"분산을 직접 증가시키는 표현은 정확하지 않다" (오류):
위 수식에서 보듯 VIF의 정의 자체가 '분산을 몇 배 뻥튀기하느냐'야. 통계학에서 다중공선성의 가장 대표적인 증상이 **'분산의 팽창(Variance Inflation)'**인데 이걸 부정하는 건 기본 개념을 잘못 파악한 거야.
"2번 '선형회귀가 있으면'이 정답이다" (오류):
독립변수 $X_1$과 $X_2$ 사이에 **'선형 관계'**나 **'상관 관계'**가 있다고 말하는 게 표준이야. "선형회귀가 있다"는 표현은 마치 변수들이 스스로 분석을 수행한다는 식의 어색한 번역투 문장이야. 시험에서는 이런 모호한 용어보다 수학적 정의인 1번을 정답으로 간주해.
