더미 변수는 회귀 모델의 질적 사실에 대한 “프록시” 변수 또는 숫자 스탠드인입니다. 회귀 분석에서 종속 변수는 양적 변수(소득, 산출, 가격 등)뿐만 아니라 질적 변수(성별, 종교, 지리적 지역 등)에 의해 영향을 받을 수 있습니다. 일부 관측값의 값이 0인 더미 독립 변수(더미 설명 변수라고도 함)는 해당 변수의 계수가 종속 변수에 영향을 주는 역할을 하지 않는 반면 더미가 값 1을 사용하면 해당 계수가 됩니다. 가로채기를 변경하는 역할을 합니다. 예를 들어 그룹의 구성원이 회귀와 관련된 질적 변수 중 하나라고 가정합니다. 그룹 구성원 자격이 임의로 1 값을 할당하면 다른 모든 멤버가 값 0을 얻게 됩니다. 그런 다음 절편 (다른 모든 설명 변수가 가설적으로 값 0을 취한 경우 종속 변수의 값)은 비 멤버에 대한 상수 용어이지만 그룹의 경우 멤버 더미의 일정 한 용어가 될 것입니다. 멤버. [1] ANCOVA 모델을 형성하기 위해 정성적 및 정량적 회귀자가 어떻게 포함되는지 설명하기 위해 ANOVA 모델에 사용된 동일한 예와 하나의 정성적 변수인 세 개의 지리적으로 공립학교 교사의 평균 연봉을 고려한다고 가정합니다. 국가 A의 지역. 우리는 양적 변수를 포함하는 경우, 학생 당 공립학교에 주 정부 지출, 이 회귀에서, 우리는 다음과 같은 모델을 얻을: kth 더미 변수는 중복; 그것은 새로운 정보를 전달하지 않습니다. 또한 해석에 대한 심각한 다중선성 문제를 생성합니다.

k-1 더미 변수만 필요할 때 k 더미 변수를 사용하여 더미 변수 트랩이라고 합니다. 이 함정을 피하십시오! 이 예제에서는 “신입생”이 코딩되지 않았기 때문에 소포모어, 주니어 또는 선배가 신입생이 되는 것과 다른 우울한 수준을 예측하는지 확인할 수 있습니다. 따라서 변수인 “주니어”가 긍정적인 베타 계수와 함께 회귀에서 중요한 경우, 이는 후배가 신입생보다 훨씬 더 우울하다는 것을 의미합니다. 또는 선배가 되는 것이 다른 해의 존재와 질적으로 다르다고 생각한다면 “선배”를 코딩하지 않기로 결정했을 수도 있습니다. 더미 변수로 명시적으로 표현되지 않는 범주형 변수값을 참조 그룹이라고 합니다. 이 예에서 참조 그룹은 독립 투표자로 구성됩니다. 여기서 u ~ N (0 , σ 2) {displaystyle usim N (0,sigma ^{2})}}는 오류 용어입니다.