Лекции.ИНФО


Уравнение парной линейной регрессии



Пусть функционирование экономического объекта описывается двумя числовыми переменными: входной переменной X и выходной переменной Y. Возможно, что X может изменяться (регулироваться) исследователем, а значе­ние Y получается как результат функционирования объекта.

Предполагается, что Y зависит от X практически линейно:

Y=mX+b+e, (1)

где m и b – детерминированные величины, e – случайная величина.

Выходная переменная Y называется зависимой переменной (или объяс­няемой переменной, или откликом). Входная переменная X называется незави­симой переменной (или объясняющей пере­менной, или фактором, или регрес­сором). Случайную величину e в экономет­рике называют возмущением.

Если математическое ожидание возмущения равно нулю, то функция

f(x)= mx+b

является условным математическим ожиданием Y при заданном значении X=x: f(x)≡MxY. В этом случае соотношение (1) называется регрессионным уравне­нием. Чтобы подчеркнуть, что переменных всего две, а связь между ними ли­нейная, говорят, что (1) – уравнение парной линейной регрессии. Функция f(x) называется регрессией (линейной) Y по X (или функцией регрессии), а величины m и b – параметрами линейной регрессии (m – коэффициентом, b – сдвигом).

Пусть имеется n наблюдений величин X и Y: (x1,y1), (x2,y2), …, (xn,yn). Из соотношения (1) получаем: yi=mxi+bi, где εi – возмущение в i-ом наблюдении, i=1, …, n.

Требуется по наблюдениям найти в некотором смысле наилучшие оцен­ки и значений m и b. Если и получены, то оценку отклика по извест­ному значению фактора x можно определить по формуле:

. (2)

Формулу (2) можно использовать для прогноза значения отклика по инте­ресующему исследователя значению фактора.

Оценивание параметров уравнения линейной регрессии

Для получения оценок и традиционно используется метод наимень­ших квадратов (МНК). В соответствии с МНК значения и определяются из условия минимума остаточной суммы, которая равна сумме квадратов от­клонений наблюдений отклика yi от оценок, полученных с помощью соотношения (2).

Обозначим: – оценка отклика для i-го наблюдения, i=1, …, n; – отклонение наблюдения отклика от оценки; величины ei называются остатками; Qe – остаточная сумма.

Графически определение остатков поясняется на рис. 1. Координатная плоскость, на которой нанесены точки наблюдений, назы­вается полем корреляции.

С учетом принятых обозначений остаточная сумма является суммой квадратов остатков и задается формулой:

(3)

Ясно, что чем меньше Qe, тем лучше оценки соответствуют наблюдениям. Из необ­ходимого условия экстремума Qe (равенства ча­стных производных по и нулю) можно получить формулы для оценок параметров уравнения линейной регрессии:

, (4)

. (5)

В формулах (4) и (5) использованы обозначения: – выборочная ковариация переменных X и Y, – выборочная дисперсия переменной X, и – выборочные средние значения X и Y, соответственно.

Определения перечисленных выше выборочных характеристик приводятся в Приложении. Вывод формул (4) и (5) дается, например, в [5].

Понятие тесноты связи

Заметим, что сдвиг b нельзя считать объективной характеристикой зависимости Y от X, потому что его величина определяется выбором начала координат. Из соотношения (5), в частности, следует, что для МНК-оценок прямая, задаваемая уравнением (2), всегда проходит через точку ( ). Подставив (5) в (2), после несложных преобразований получим:

. (6)

Это соотношение связывает отклонения оценки отклика и фактора от их выборочных средних значений. Переход от величин к их отклонениям от сред­него называется центрированием этих величин. Заметим, что значение в соот­ношении (6) не присутствует.

На первый взгляд кажется, что по величине коэффициента можно су­дить о степени зависимости Y от X: чем больше , тем сильнее зависимость. Это не совсем так, потому что на величину влияет выбор единиц измерения X и Y. Для получения более объективной, чем , характеристики зависимости X и Y,следует найти связь между их нормированными значениями. Нормировку обычно проводят делением величины X (и, соответственно, Y) на ее выбороч­ное среднее квадратичное отклонение sx (sy). Разделим обе части соотноше­ния (6) на sy, а затем правую часть умножим и разделим на sx. Тогда получим:

(7)

где введено обозначение:

Величина r называется выборочным коэффициентом корреляции (см. Приложение). Коэффициент r показывает, на сколько значений sy в среднем увеличится отклик, если фактор увеличится на sx. Говорят, что выборочный коэффициент корреляции характеризует тесноту связи между X и Y.

Известно, что |r| ≤1. Чем ближе |r| к 1, тем теснее связь между X и Y; чем ближе |r| к 0, тем слабее связь. При r=±1 точки наблюдений лежат на прямой, задаваемой соотношением (2). При r=0 прямая (2) параллельна оси абсцисс, и связь между X и Y отсутствует. Примеры тесной и слабой связи даны на рис.2.










Читайте также:

Последнее изменение этой страницы: 2016-08-31; Просмотров: 31;


lektsia.info 2017 год. Все права принадлежат их авторам! Главная