Лекции.ИНФО


Понятие мультиколлинеарности. Способы ее обнаружения и методы устранения



 

Еще одной серьезной проблемой при построении моделей множественной линейной регрессии по МНК является мультиколлинеарность − линейная взаимосвязь двух или нескольких объясняющих переменных. Причем, если объясняющие переменные связаны строгой функциональной зависимостью, то говорят о совершенной мультиколлинеарности. На практике можно столкнуться с очень высокой (или близкой к ней) мультиколлинеарностью − сильной корреляционной зависимостью между объясняющими переменными. Причины мультиколлинеарности и способы ее устранения анализируются ниже.

       
   
 
 

 


Устранение мультиколлинеарности возможно посредством исключения из корреляционной модели одного или нескольких линейно связанных факторных признаков или преобразования исходных факторных признаков в новые, укрупненные факторы. Вопрос о том, какой из факторов следует отбросить, решается на основе количественного и логического анализа изучаемого явления.

Описание методов устранения или снижения уровня мультиколлинеарности

Метод Суть метода
Сравнение значений линейных коэффициентов корреляции При отборе факторов предпочтение отдается тому фактору, который более тесно, чем другие факторы, связан с результативным признаком, причем желательно, чтобы связь данного факторного признака с Y была выше, чем его связь с другим факторным признаком. В данном случае имеет место расчет общих и частных коэффициентов корреляции, по результатам расчетов которых принимается окончательное решение о преобразовании исходной модели. и
Метод включения факторов Метод заключается в том, что в модель включаются факторы по одному в определенной последовательности. На первом шаге вводится тот фактор, который имеет наибольший коэффициент корреляции с зависимой переменной. На втором и последующих шагах в модель включается фактор, который имеет наибольший коэффициент корреляции с остатками модели. После включения каждого фактора в модель рассчитывают ее характеристики и модель проверяют на достоверность.

 

 

Метод Суть метода
Метод исключения факторов Метод состоит в том, что в модель включаются все факторы. Затем после построения уравнения регрессии из модели исключают фактор, коэффициент при котором незначим и имеет наименьшее значение t-статистики. После этого получают новое уравнение регрессии и снова проводят оценку значимости всех оставшихся коэффициентов регрессии. Процесс исключения факторов продолжается до тех пор, пока модель не станет удовлетворять определенным условиям и все коэффициенты регрессии не будут значимы.

 

В настоящее время при построении корреляционных моделей исходят из условия нормальности многомерного закона распределения генеральной совокупности. Эти условия обеспечивают линейный характер связи между изучаемыми признаками, что делает правомерным использование в качестве показателей тесноты связи парного, частного коэффициентов корреляции и коэффициента множественной корреляции. Частные коэффициенты корреляции характеризуют связи признаков из совокупности признаков при условии, что все связи этих признаков с другими признаками закреплены на условно-постоянном (среднем) уровне.

Частный коэффициент корреляции изменяется в пределах от -1 до +1. Если частный коэффициент корреляции равен ±1, то связь между двумя величинами функциональная, а равенство нулю свидетельствует о линейной независимости этих величин.

 

Решение типовых задач

 

Задача 5.2.1

На примере задачи 2.6.1, где m=2, проверим наличие мультиколлинеарности в построенной модели по следующей формуле:

Следовательно, есть подозрение, что в модели присутствует некоторая мультиколлинеарность. Рассчитаем частные коэффициенты корреляции, на основании которых сделаем окончательный вывод о значимости обнаруженной в модели мультиколлинеарности и необходимости ее устранения.

,

где

 

Таким образом, полученные величины частных коэффициентов корреляции очень близки по модулю к единице, т.е. теснота связи между расходами на питание и каждым из исследуемых факторов при неизменном значении другого весьма значительна. Возможно, в данной модели наличие мультиколлинеарности не настолько ухудшает ее качество. Иногда мультиколлинеарность не является таким уж «злом», чтобы прилагать существенные усилия по ее устранению. Все зависит от целей исследования. Если основная задача модели – прогноз будущих значений результативного признака, то при R2 ≥ 0,9 наличие мультиколлинеарности обычно не сказывается на прогнозных качествах модели.

Итак, можно сказать, что единого метода устранения мультиколлинеарности не существует. Простейшим методом устранения мультиколлинеарности является исключение из модели ряда коррелированных переменных. В прикладных моделях лучше не сокращать число факторов до тех пор, пока мультиколлинеарность не станет серьезной проблемой. Иногда для уменьшения мультиколлинеарности достаточно увеличить объем выборки. Но при этом может усилиться автокорреляция.

 

Задача 5.2.2

По 18 наблюдениям получены следующие результаты:

; ; ;

; ; ;

; ; ; .

Требуется:

а) по МНК определить параметры множественной линейной регрессии ;

б) проверить модель на наличие мультиколлинеарности между объясняющими переменными.

Решение:

а) для вычисления коэффициентов уравнения регрессии необходимо определить значения 6-ти сумм:

1. = .

2. = .

3. = .

4. = .

5. = .

6. = .

Подставим полученные значения 6-ти сумм в формулы для расчета коэффициентов уравнения регрессии (m=2):

;

=9683,94;

=27,48;

= -3368,71.

Таким образом, мы получили эмпирические значения параметров множественной линейной регрессии, которая имеет следующий вид:

= - 3368,71+9683,94x1+27,48x2;

б) Проверим модель на наличие мультиколлинеарности.

Следовательно, в модели между переменными Х­1 и Х2 присутствует мультиколлинеарность. Поэтому, если при дальнейшей проверке на гетероскедастичность окажется, что она существует по переменной Х2 и коэффициент b2 не значим, то из модели необходимо исключить переменную Х2. Проверим, целесообразно ли это делать без такой проверки. Для этого есть два варианта. Первый – построить два уравнения регрессии Y(X1) и Y(X2) и посмотреть, у какой из этих моделей качество лучше. Если подтвердится, что у первой модели качество выше, чем у второй, то сразу без дальнейшей проверки на гетероскедастичность можно исключить из модели фактор X2. Эту же проверку можно сделать иначе, для чего необходимо рассчитать частные коэффициенты корреляции, на основании которых сделаем окончательный вывод.

,

,

,

где

,

.

Следовательно, связь между yx1 без учета влияния фактора x2 намного существенней, чем связь между yx2 без учета фактора х1. Поэтому без проверки на гетероскедастичность остатков в исходной модели можно сразу предложить изменить ее спецификацию, исключив из модели фактор х2. Но поскольку коэффициент , то нельзя просто пренебречь фактором x2, необходимо преобразовать выборку, перейдя к новой . В построенной модели мультиколлинеарность будет отсутствовать. При этом она будет учитывать оба объясняющих фактора.

Задача 5.2.3

 

По 25 наблюдениям получены следующие результаты:

Для вычисления коэффициентов уравнения регрессии необходимо определить значения 6-ти сумм:

1. = .

2. = .

3. = .

4. = .

5. = .

6. = .

Требуется:

а) по МНК определить параметры множественной линейной регрессии ;

б) проверить модель на наличие мультиколлинеарности между объясняющими переменными.

Решение:

а. Подставим полученные значения 6-ти сумм в формулы для расчета коэффициентов уравнения регрессии (m=2):

;

=0,8486;

=1,5080;

= -1,8388.

Таким образом, мы получили эмпирические значения параметров множественной линейной регрессии, которая имеет следующий вид:

= -1,8388+0,8486x1+1,5080x2.

б) Проверим модель на наличие мультиколлинеарности.

.

.

Следовательно, в модели между переменными Х­1 и Х2 мультиколлинеарность отсутствует. Проверим отсутствие мультиколлинеарности по общей схеме. Для этого вычислим частные коэффициенты корреляции:

,

,

,

где

,

.

 

Таким образом, из проведенного исследования можно сделать вывод, что фактор X2 в большей степени коррелирует с величиной Y, чем объясняющая переменная X1, так как ryx1 > ryx2, и соответственно . Поэтому при исключении одной из переменных по коэффициентам корреляции в случае обнаружения мультиколлинеарности между объясняющими переменными, необходимо было бы исключить из модели фактор X1, так как < . Коэффициент частной корреляции , определяющий внутреннюю связь между переменными X1 и X2, оказался по модулю близок к 1, следовательно, экономически оправданным является составление зависимости между этими переменными.

 

Задача 5.2.4

По выборке объема n = 50 для Х1, Х2, Х3 построена следующая корреляционная матрица

1. Найдите и оцените статистическую значимость частных коэффициентов корреляции r12,3; r23,1; r13,2.

2. При рассмотрении какой регрессии будет иметь место мультиколлинеарность.

Решение: для оценки статистической значимости частных коэффициентов корреляции необходимо рассчитать обратную матрицу.

|R| = = = 0,4046.

R-1 = = C* = = .

= = 0,79.

= = 0,81.

= = -0,77.

 

Таким образом, мультиколлинеарность присутствует во всех трех случаях, поскольку одним из основных признаков ее наличия в модели являются высокие значения частных коэффициентов корреляции. Кроме того, для оценки мультиколлинеарности факторов может использоваться определитель матрицы парных коэффициентов корреляции между факторами. Чем ближе к 0 определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И наоборот, чем ближе к 1 определитель матрицы межфакторной корреляции, тем меньше мультиколлинеарность факторов.

 

Упражнения и задачи

Задача 5.3.1

В модели три фактора Х1, Х2, Х3. Коэффициенты корреляции r12 = 0,42, r13 = -0,36, r23 = 0,53. Определить наличие мультиколлинеарности между обозначенными факторами, используя обратную матрицу.

Задача 5.3.2

В задачах 2.6.1 и 2.7.7 определить наличие мультиколлинеарности между объясняющими переменными.









Читайте также:

Последнее изменение этой страницы: 2016-06-05; Просмотров: 477;


lektsia.info 2017 год. Все права принадлежат их авторам! Главная