Лекции.ИНФО


Линейная модель парной регрессии. Метод наименьших квадратов (МНК). Свойство оценок МНК.



Линейная регрессия находит широкое применение в эконометрике в виде чёткой экономической интерпретации её параметров.

Линейная регрессия сводится к нахождению уравнения вида (1) или (2). Уравнение (1) позволяет по заданным значениям фактора х иметь теоретические значения результативного признака, подставляя в него фактические значения фактора х.Уравнение (2) рассматривает укак зависимую переменную, состоящую из двух составляющих:

1) неслучайную составляющую , где выступает как объясняющая (независимая) переменная, а и - параметры уравнения;

2) случайного члена - (возмущение)

 

 

Если , то получатся точки .

Если , то получим точки ; .

Случайный член существует по ряду причин:

1) включение не всех объясняющих переменных (есть ещё другие факторы, влияющие на у), но измерить их невозможно (например, психологические);

2) агрегирование переменных (объединение некоторого числа микроэкономического соотношения);

3) неправильное описание структуры модели (временные ряды зависят не только от t, но и от t-1);

4) неправильная функциональная спецификация (не линейная, а какая-то другая);

5) ошибки измерения.

εi есть сумма всех этих факторов.

Рассмотрим задачу определения параметров модели, то есть коэффициентов и - оценке параметров модели.

Оценки параметров линейной регрессии могут быть найдены разными методами, например можно построить поле корреляции, взять 2 точки и провести через них прямую.

 

 

оценка параметра , то есть отрезок отсекаемой прямой на оси ;

, - угловой коэффициент прямой,

- оценка параметра .

Необходимо с самого начала признать, что мы не сможем рассчитать истинные значения и . Мы можем получить только оценки, и они могут быть или хорошими или плохими. Построение линии регрессии на глаз является достаточно субъективным.

Отрезок ε1 (остаток), ε2. Остатки должны быть min. .

Y
XX
X1
P1
P4
R3
R2
R4
P3
P2
R1
ε1
eeeΕ222

Существует целый ряд критериев:

1. МНК минимизация суммы квадратов отклонений.

2. Минимизируется сумма модулей отклонений.

3. Функция Хубера , где - «мера» с которой отклонение входит в функционал.

 

c
-c
y
x

Рассмотрим достоинства и недостатки перечисленных функционалов.

1) сумма квадратов отклонений:

«+» лёгкость вычисления, хорошие статистические свойства, простота математических выводов делают возможным построить развитую теорию, позволяющую провести тщательную проверку различных статистических гипотез;

«-» чувствительность к выбросам;

2) сумма модулей отклонений:

«+» робастость, то есть нечувствительность к выбросам;

«-» сложность вычислительной процедуры, большим отклонениям надо придавать больший вес (лучше 2 отклонения по 1, чем одно 0 и 2), неоднозначность, то есть разным значениям параметра могут соответствовать одинаковые суммы модулей отклонений.

Функция Хубера является попыткой совместить достоинства двух первых функционалов.

Рассмотрим МНК:

Из множества линий регрессии на графике выбирается та, сумма квадратов отклонений была минимальной.

Y
P1
Pi
εi
ε1
X
yi

Чтобы найти минимум надо взять частные производные по и функции S и приравнять их нулю.

Получим систему нормальных уравнений для оценки параметров a и b (3):

(3)

 

Решая систему (3) любым методом: исключение, Крамера (через определители), найдем оценки параметров a и b. МНК даёт самые точные несмещённые и эффективные оценки и .

Можно воспользоваться формулами для определения параметров:

;

- ковариация признаков;

- дисперсия признака х.

Параметр b называется коэффициентом регрессии. Его величина показывает среднее изменение результата (у) с изменением фактора х на одну единицу. Зависимость между расходами на питание (у) и располагаемым личным доходом (х) за период 1959 по 1983 г. В США описывается уравнением регрессии.

, х увеличился на 1 единицу, а у на 0,093ед.

Если Х увеличился на 1 млрд $, то у (расходы на питание) возрастут на 93 млн $ (т. е. из 1 $ дохода 9,3 цента – на питание).

у = а
Параметр а, . Уравнение регрессии теряет смысл, «а» - не имеет экономического содержания. Интерпретировать можно только знак при параметре а. - относительное изменение параметра у, происходит медленнее, чем изменение фактора или вариации результата.

Коэффициенты вариации ; ;

Если , то ;

Если , то

Возможность чёткой экономической интерпретации коэффициента регрессии сделала линейное уравнение регрессии достаточно распространенным в экономических исследованиях.

Поскольку полученные оценки a и b коэффициентов линейной рег­рессии опираются на статистические данные и являются случайными величинами, то естественно установить свойства названных оценок; как случайных величин. Более того, не выяснив этих свойств, невоз­можно сделать обоснованные выводы относительно качества и надеж­ности полученных оценок. Необходимо, в частности, определить такие их статистические характеристики, как математическое ожидание и дисперсия. К желательным свойствам оценок относятся также несмещенность и состоятельность. Далее, если бы удалось установить вид распределения (плотности распределения) оценок, можно было бы по­строить доверительные интервалы для истинных значений параметров регрессии (т. е. получить интервальные оценки коэффициентов) и реа­лизовать процедуры проверки гипотез относительно их значений. Важ­ную роль играет также изучение статистических свойств остатков оце­ненной регрессии.

Все эти задачи можно решить, основываясь на некоторых правдопо­добных теоретических предпосылках (гипотезах) модели, выполнение которых на практике подлежит проверке с помощью специально разра­ботанных для этого статистических процедур.

Предположение относительно независимых переменных

В дальнейшем будем допускать, что х — детерминированная (не­случайная) величина, т. е. значения независимых переменных заранее известны. Данное предположение (предпосылка), к сожалению, на практике при моделировании реальных социально-экономических процессов часто не выполняется. Это связано с тем, что здесь в качест­ве независимых переменных часто выступают стохастические некон­тролируемые величины, такие как интенсивность потока покупателей (в одном из примеров главы 1) или рыночный индекс в рыночной мо­дели, который также является случайной величиной. При нарушении вышеупомянутой предпосылки ряд «хороших» свойств оценок сохра­няется (при некоторых условиях), но в отдельных случаях требуется корректировка модели (оценок).

Предположения относительно случайной составляющей модели

При выполнении предпосылки относительно переменной х стати­стические свойства оценок параметров и зависимой переменной, а так­же, остатков, целиком определяются вероятностными свойствами случайной составляющей регрессионной модели. Относительно слу­чайной составляющей в классическом регрессионном анализе предпо­лагают выполнение следующих условий, которые называются условия­ми Гаусса-Марковаи играют ключевую роль при изучении свойств оце­нок, полученных по методу наименьших квадратов:

1. Первое условие заключается в том, что математическое ожидание случайной составляющей во всех наблюдениях должно быть равно нулю. Формально это записывается так

М{εt} = 0, для всех t = 1,2,...,п.

Смысл этого условия заключается в том, что не должно быть систе­матического смещения случайной составляющей. В линейной регрес­сии систематическое смещение линии регрессии учитывается с помо­щью введения параметра смещения εi и поэтому данное условие можно считать всегда выполненным.

2.Дисперсия случайной составляющей постоянна для всех наблю­дений (т. е. не зависит от номера наблюдения). Это условие записыва­ется так:

 

D{εt}=M{εt2}=σ2,

 

где дисперсия σ2 — величина постоянная.

Это свойство дисперсии ошибок называется гомоскедастичностью (однородностью).

Выполнение условия гомоскедастичности при построении конкрет­ных эконометрических моделей необходимо проверять с помощью спе­циальных статистических процедур. Поскольку истинные дисперсии ошибок неизвестны, их можно лишь приближенно оценить на основе наблюдаемых (точнее, вычисляемых) значений остатков модели в каж­дом наблюдении. Таким образом, и свойство гомоскедастичности на практике проверяется (диагностируется) на самом деле для остатков мо­дели, а не для истинных ошибок, и может выполняться лишь прибли­женно. Если условие гомоскедастичности не выполнено (т. е. дисперсия ошибок не постоянна), то говорят, что имеет место условие гетероскедастичности). Понятия «гомоскедастичность» и «гетероскедастичность» являются ключевыми в эконометрике.

Графическая иллюстрация понятий «гомоскедастичность» и «гетероскедастичность»

 

Рис. 2.6а

Гомоскедастичность Рис.2.6б Рис. 2.6в

Гетероскедастичность Гетероскедастичные остатки

 

3. Случайные составляющие модели для различных наблюдений некоррелированы. Это условие записывается таким образом:

 

М{εi, εj}=0, для всех i≠j (i, j=1,2,…,n)

Выполнение данного условия означает отсутствие систематической (статистической) связи между значениями случайного члена в любых двух наблюдениях. Это свойство на практике также проверяется с по­мощью статистических процедур на основе анализа остатков модели.

Если оно нарушается, то процедура оценки параметров должна быть скорректирована.

 

4. Четвертое условие Гаусса-Маркова записывается так:

 

M{xI, εj}=0, для всех i и j,

и означает, что объясняющие переменные и случайные составляющие некоррелированы для всех наблюдений. Ранее мы предположили, что объясняющая переменная в модели не является стохастической. В этом случае четвертое условие выполняется автоматически.

Регрессионная модель с детерминированными регрессорами, удовлетво­ряющая предпосылкам Гаусса-Маркова, называется классической регрес­сионной моделью.

Дополнительное предположение о нормальном распределении ошибок

При выполнении условий Гаусса-Маркова, оценки наименьших квадратов обладают такими свойствами, как несмещенность, состоя­тельность и оптимальность (эффективность). Однако, для построения доверительных интервалов и проверки гипотез относительно истинных значений параметров, необходимо дополнительное предположение о распределении случайной составляющей εi. В классическом регресси­онном анализе допускается, что эта составляющая распределена по нормальному закону и тогда модель называют классической нормальной линейной регрессией .

Первых четырех условий достаточно, а пятое - необходимо для оценки точности уравнения регрессии.

Данное предположение является, пожалуй, наиболее спорным. Дело в том, что предположение о нормальности можно считать правдо­подобным, если значения случайной величины порождаются в резуль­тате воздействия большого количества независимых случайных факто­ров, каждый из которых не обязательно имеет нормальное распределе­ние. Примером такого воздействия является так называемое броуновское движение (хаотичное движение малых частиц в жидкости как результат совокупного воздействия на частицу — ударов, соударе­ния — большого количества молекул жидкости).

В экономических процессах распределения случайных величин, как правило, отличаются от нормального, поскольку механизм их более сложный. Тем не менее, чаще всего именно нормаль­ное распределение используется в эконометрических исследованиях (как, впрочем, и в статистике). Это обусловлено следующими причинами. Во-первых, нормальный закон действительно часто достаточно хорошо (с приемлемой для практики точностью) аппроксимирует (приближенно описывает) распределение случайной составляющей. Во-вторых, что очень важно, на основе нормального распределения можно получить процедуры проверки гипотез и построения доверительных интервалов, удобные для расчетов и применения на практи­ке. В любом случае, не изучив базовые результаты (процедуры), осно­ванные на предположении нормальности, нельзя продвигаться на бо­лее высокий уровень изучения и применения более реалистичных моделей, не использующих эту предпосылку и позволяющих получать более точные результаты.

Замечание. Если случайные величины в модели распределены по нормальному закону, то из свойств некоррелированности в третьем и четвертом условиях Гаусса-Маркова следует и независимость соответ­ствующих случайных величин.

Оценкой модели является уравнение:

а - оценка они определяются МНК

b - оценка

Несмещенная оценка остаточной дисперсии учитывает воздействие факторов и ошибок неучтенных в модели, определяется с помощью дисперсии возмущения (ошибок) или остаточной дисперсии σ2, - это выборочная остаточная дисперсия.

Являются ли оценки a, b и s2 наилучшими выясняется по условиям Гаусса-Маркова: если регрессионная модель удовлетворяет предпосылкам 1-4, то оценки a и b имеют наименьшую дисперсию в классе линейных несмещенных оценок.

Свойства выборочных вариаций (дисперсий) и ковариаций.

Для дальнейшего изложения нам понадобится установить ряд пра­вил, которые можно использовать при преобразовании выражений, со­держащих выборочные вариации и ковариации.

Пусть а — некоторая постоянная, а х, у, z — переменные, прини­мающие в i-м наблюдении значения xi,yi,zi,i=1,..., п (n — количество наблюдений). Тогда а можно рассматривать как переменную, значение которой в i-м наблюдении равно а, и

Соv(х, а) =

 

откуда следует свойство:

1. Cov(x, a) = 0.

Далее, нетрудно видеть, что имеют место равенства:

2. Cov(x, у) = Cov(y, х);

3. Cov(x, x) = Var(x).

Кроме того,

Cov(ax, y) = =

откуда следует свойство:

4. Cov(ax. у) = aCov(x, у).

Далее, имеем

Cov(xy,z) = =

так что можно сформулировать еще одно свойство:

5. Cov(x,у + z) =Cov(x,у) + Cov(x,z).

На основе вышеназванных свойств находим, что

6. Var(a)=0 ,

т. е. постоянная не обладает изменчивостью и

7. Var(ax)=a2Var(x).

Таким образом, при изменении единицы измерения переменной в раз, во столько же раз преобразуется и величина стандартного отклоне­ния этой переменной (напомним, что стандартное отклонение равно квадратному корню из дисперсии).

8. Var(x+a)=Var(x)

т. е. сдвиг начала отсчета не влияет на вариацию переменной.

Далее, имеем:

Var(x+y)=Cov(x+y,x+y)= Cov(x,х) + Cov(x,у) + Cov(y,x) + Cov(x,у).

Таким образом, доказано свойство

9.Var(x+y)=Var(x)+Var(y)+2Cov(x,y),

означающее, что вариация суммы двух переменных отличается от сум­мы вариаций этих переменных на величину, которая равна удвоенному значению ковариации между названными переменными.

Свойства остатков. Теперь установим почти очевидные соотношения, которые следуют из условии минимума критерия наименьших квадратов. Определим величину

ŷi=a +bx,

оценку переменной у при оптимальных значениях коэффициентов регрессии и фиксированном значении х в i-ом наблюдении. Такую оценку называют прогнозом зависимой переменной. Тогда, очевидно, ошибка модели в i-ом наблюдении будет равна εi=yi - ŷi и из условия следует, что

т. е сумма квадратов ошибок оценок переменной у (остатков модели) при оптимальных параметрах регрессии а и b равна нулю.

Далее, вытекает, что

т. е., при оптимальных параметрах регрессии ошибки ортогональны на­блюдениям независимой переменной.

Несмещенность МНК-оценок.Статистическая оценка некоторого параметра называется несме­щенной, если ее математическое ожидание равно истинному значению этого параметра.

Для случая парной линейной регрессии это означает, что опенки а и b будут несмещенными, если

М{а} = α, M{b}=β.

Докажем это свойство. Используя правила преобразования выбо­рочных ковариаций, можно записать:

Cov(x, у) = Cov(x[a + βx + и]) =

= Cov(x, а) + Cov(x, βх) + Cov(x, и) = βVar(x) + Cov(x, и).

 

Применив формулу для коэффициента,а также полученное выше соотношение, составим выражение:

Далее, поскольку х — неслучайная величина, будем иметь:

и, таким образом, оценка b является несмещенной.

Несмещенность оценки а следует из цепочки равенств:

М{а}=

Замечание. Свойство несмещенности оценок можно доказать и при более слабой форме 4-го условия Гаусса-Маркова, когда х—случайная, но некоррелированная со случайной переменной ε, величина.

Состоятельность оценок.Свойство состоятельности оценок заключается в том, что при неог­раниченном возрастании объема выборки, значение оценки должно стремиться (по вероятности) к истинному значению параметра, а дис­персии оценок должны уменьшаться и в пределе стремиться к нулю. Дисперсии оценок коэффициентов регрессии определяются выраже­ниями:

;

Или, используя равенство , можно записать в виде:

Вывод: чем больше число наблюдений n, тем меньше будет дисперсия. Эффективность (оптимальность) оценок.

До сих пор мы говорили об оптимальности оценок в смысле мини­мума квадратичного критерия. Оказывается, что при выполнении условий Гаусса-Маркова они являются также оптимальными в смысле минимума дисперсии.

Оценка называется эффективной, если она имеет минимальную дис­персию по сравнению с другими оценками заданного класса.

Таким образом, оценки наименьших квадратов являются эффек­тивными, т. е. наилучшими в смысле минимума дисперсии, в классе всех линейных несмещенных оценок параметров.

Вычтем из уравнения(1) зависимость (2):

, то есть оценка теоретической дисперсии зависит от (и только от) числа случайной составляющей наблюдений х в выборке. Поскольку эти составляющие меняются от выборки к выборке, так от выборки к выборке меняется и величина оценки .

 









Читайте также:

  1. Анализ общего качества уравнения регрессии.
  2. Билет Классическая и обобщенная модели множественной линейной регрессии.
  3. Важнейшее специфическое свойство биологического пространства
  4. Гидростатическое давление и его свойство
  5. Гиперболическая и логарифмическая регрессии. Полиномиальная и кусочно-полиномиальная регрессия.
  6. Глава 3. Предпосылки метода наименьших квадратов
  7. График функции. Свойство монотонности функции
  8. Данная упорядоченность не есть свойство хаотичности, а представляет собой накопление с определённым распределительным фактором относительности.
  9. Диалектика количественных и качественных изменений. Качество и свойство. Качество и количество.
  10. Динамика оценок САН в течение рабочего дня у учителей с различным стажем работы
  11. Какую функцию называют четной? Определение и свойство графика четной функции
  12. Критерии выставления оценок за ВКР


Последнее изменение этой страницы: 2016-05-30; Просмотров: 676;


lektsia.info 2017 год. Все права принадлежат их авторам! Главная