Изучение теории вопроса | Статистический анализ двумерных данных.
Анализ двумерных данных включает в себя три основных цели:
1. Описание и понимание взаимосвязи.
2. Прогнозирование и предсказание нового наблюдения.
3. Корректировка и управление процессом.
Существует два вида анализа двумерных данных, представленных переменными X и Y:
Регрессионный анализ, определяет форму (вид) связи между этими переменными.
Регрессионный анализ всегда проводится после корреляционного анализа, когда между переменными установлено наличие взаимосвязи.
Регрессионный анализ используется для прогнозирования одной переменной на основании другой (как правило, Y на основании X), или показывает, как можно управлять одной переменной с помощью другой.
Определение формы зависимости между переменными X и Y является одной из главных задач регрессионного анализа.
Для этого необходимо построить уравнение регрессионной связи между Y и X (уравнение регрессии) следующего вида:
Y = f(x) + e,
где f(x) - функцией регрессии,
e – величина, учитывающая случайные воздействия.
Для выборочных данных уравнение регрессионной связи удобно представить следующим образом:
![]() ![]() ![]() ![]() ![]() ![]() ![]() |
Подготовить набор исходных данных | При регрессионном анализе рассматриваются двумерные данные. В качестве исходных данных необходимо сформировать две последовательности величин с предположением наличия между ними взаимосвязи. |
Построить график линейной зависимости между стоимостью и площадью жилого объекта | В Excel используются три метода построения функции линейной регрессии: команда Добавить линию тренда, инструмент анализа Регрессия и соответствующие статистические функции в Мастере функций. Инструмент анализа Регрессия помимо тех результатов, которые выдает команда Добавить линию тренда, позволяет получить дополнительную информацию о зависимости двух переменных. |
Создать файл | - Откройте программу Excel. - Щелкните на кнопке Сохранить на панели инструментов Стандартная. - откройте В появившемся диалоговом окне папку Статистика и - задайте имя файлу Простая регрессия.xls. |
Применение команды Добавить линию тренда | |
В файле Простая регрессия.xls удалите Лист1, а имя Лист1(2) замените на имя Лист1. Закройте файл Двумерные данные.xls. | |
На диаграмме рассеяния щелкните правой кнопкой мыши на любой точке данных (Ряд1)
выберите в контекстном меню команду Добавить линию тренда…
Появится диалоговое окно (см. рисунок ниже).
![]() | |
щелкните в диалоговом окне на вкладке Тип по пиктограмме Линейная.
Откройте вкладку Параметры (см. рисунок ниже) и
выберите в области Название аппроксимирующей (сглаженной) кривой опцию автоматическое.
Убедитесь, что опция пересечение кривой с осью Y в точке: не отмечена.
1. Включите опции показывать уравнение на диаграмме и поместить на диаграмму величину достоверности аппроксимации (R^2).
2. Щелкните на кнопке ОК.
![]() | |
Интерпретация линии тренда | Полученная линия тренда (иногда ее называют линией наименьших квадратов) является графиком функции регрессии, построенной на выборочных данных с использованием МНК. Величина R2, указанная на диаграмме рассеяния, называется коэффициентом детерминации, который определяет долю изменения переменной Y в зависимости от X. В нашем случае R2=0,6637. Это означает, что приблизительно 66% колебаний стоимости жилой площади связано с ее размером, а остальные 34% колебаний вызваны другими (неучтенными) факторами. |
Использование инструмента анализа Регрессия Исследовать линейную зависимость между стоимостью и площадью жилого объекта с помощью инструмента анализа Регрессия | |
1. Откройте файл Простая регрессия.xls.
2. Скопируйте данные с Листа1 (диапазон A1:B16) на Лист2 в такой же диапазон.
3. Выберите команду: Сервис®Анализ данных®Регрессия.
4. В диалоговом окне Регрессия установите параметры как указано ниже на рисунке.
Поясним назначение параметров диалогового окна Регрессия.
— Входной интервал Y: – диапазон со значениями зависимой переменной Y, включая метку.
— Входной интервал X: – диапазон со значениями независимой переменной X, включая метку.
— Метки – эту опцию включают, если Входные интервалы X, Y содержат подписи сверху.
— Константа - ноль – данную опцию включают только в том случае, когда вы хотите, чтобы прямая регрессии проходила через начало координат (0, 0).
— Уровень надежности: – по умолчанию используется 95%-ый доверительный интервал. Для получения других доверительных интервалов устанавливают флажок и вводят уровень значимости.
— Выходной интервал: – включается опция и в текстовое поле вводится ссылка (ячейка), указывающая левый верхний угол области вывода результатов.
— Остатки – эту опцию включают для получения значений выборочной функции регрессии ( ![]() ![]() ![]() | |
Интерпретация регрессии | Коэффициенты b0, b1 уравнения линейной регрессии представлены в столбце Коэффициенты.
Коэффициент Y-пересечение 18,78946749 (ячейка E17) является постоянным членом уравнения b0, а коэффициент Площадь 0,021010249 (ячейка E18) – коэффициентом регрессии b1.
Таким образом, уравнение регрессии имеет вид:
![]() ![]() ![]() ![]() |
Интерпретация диаграмм регрессии | В случае линейной регрессии инструмент анализа Регрессия строит две диаграммы регрессии: график остатков и график подбора. Первоначально диаграммы располагаются справа от итоговых результатов в ячейках M1:S12. График подбора аналогичен графику с добавлением линии тренда, за исключением того, что значения функции регрессии (Предсказанное Цена) отображаются маркерами без соединяющих линий. Проведем форматирование диаграммы. 1. Выделите диаграмму Площадь График остатков и переместите ее в диапазон N16:S25. 2. На диаграмме Площадь График подбора щелкните правой кнопкой мыши на любом маркере Ряда «Предсказанное Цена» и 3. в контекстном меню выберите команду: Формат рядов данных… 4. В диалоговом окне на вкладке Вид в области Линия включите опцию обычная, а в области Маркер включите опцию отсутствует. 5. Щелкните на кнопке ОК. 6. Щелкните правой кнопкой мыши по Оси X (категорий) и в контекстном меню выберите команду Формат оси… 7. На вкладке Шкала в области Авто снимите флажок минимальное значение: и в текстовом поле введите значение 400, снимите флажок максимальное значение: и 8. в текстовом поле введите значение 1400, снимите флажок цена основных делений: и в текстовом поле введите значение 200. 9. На вкладке Шрифт установите Arial 8. 10. Щелкните на кнопке ОК. 11. Щелкните правой кнопкой мыши по Оси Y (значений) и 12. в контекстном меню выберите команду Формат оси… 13. На вкладке Шкала в области Авто снимите флажок минимальное значение: и 14. в текстовом поле введите значение 20, снимите флажок максимальное значение: и 15. в текстовом поле введите значение 50, 16. снимите флажок цена основных делений: и 17. в текстовом поле введите значение 10. 18. На вкладке Число в списке Числовые форматы: выберите формат Числовой и 19. установите Число десятичных знаков: равным 0. 20. На вкладке Шрифт установите Arial 8. Щелкните на кнопке ОК. 21. Выделите заголовок диаграммы и смените название на Объекты недвижимости. Установите шрифт жирный, Arial 12. 22. Выделите название оси X и смените название на Жилая площадь, в кв. метрах. Установите шрифт Arial 8. 23. Выделите название оси Y и смените название на Цена продажи, в тысячах долларов. Установите шрифт Arial 8. 24. Для легенды установите шрифт Arial 8. 25. Измените размеры диаграммы таким образом, чтобы она занимала диапазон N1:T14. График остатков применяется для определения, является ли приемлемым приближение (в нашем случае использование МНК) для функции регрессии. Отформатируем диаграмму. 1. Выделите заголовок диаграммы и 2. смените название на График остатков. Установите шрифт жирный, Arial 12. 3. Измените размеры диаграммы таким образом, чтобы она занимала диапазон N16:S30. Линейное приближение считается удовлетворительным, если график остатков имеет случайный разброс точек, а прямая функции регрессии является на этом графике горизонтальной линией. В данном случае мы имеем «хорошее» приближение. |
Использование статистических функций | |
Исследовать линейную зависимость между стоимостью и площадью жилого объекта с помощью статистических функций. | 1. Откройте файл Простая регрессия.xls. 2. Скопируйте данные с Листа1 (диапазон A1:B16) на Лист3 в такой же диапазон. 3. В ячейку F1 введите Значение, а в ячейку H1 введите Функция. 4. Выделите ячейку H2, вызовите Мастер функций и 5. в списке статистических функций выберите функцию ОТРЕЗОК. 6. В диалоговом окне Аргументы функции задайте соответствующие диапазоны переменных Y (Цена) и X (Площадь), не включая меток. 7. Щелкните на кнопке ОК. 8. В ячейке H2 будет вычислен постоянный член уравнения регрессии b0= 18,78947. 9. Выделите ячейку H3, 10. вызовите Мастер функций и 11. в списке статистических функций выберите функцию НАКЛОН. 12. В диалоговом окне Аргументы функции задайте соответствующие диапазоны переменных Y (Цена) и X (Площадь), не включая меток. 13. Щелкните на кнопке ОК. В ячейке H3 будет вычислен коэффициент регрессии b1= 0,02101. 14. Выделите ячейку H4, 15. вызовите Мастер функций и 16. в списке статистических функций выберите функцию СТОШYX. 17. В диалоговом окне Аргументы функции задайте соответствующие диапазоны переменных Y (Цена) и X (Площадь), не включая меток. 18. Щелкните на кнопке ОК. В ячейке H4 будет вычислена стандартная ошибка оценки 3,2377744. 19. Как будет выглядеть уравнение регрессии? 20. Сравните с результатами, полученными с помощью инструмента анализа Регрессия. 21. Скопируйте значения из столбца H в столбец F. Для этого выделите ячейки с вычисленными значениями (H2:H4) и выполните команду: Правка®Копировать, а затем выделите ячейку F2 и выполните команду: Правка®Специальная вставка... В диалоговом окне включите опцию значения и щелкните на кнопке ОК. 22. Чтобы формулы были видны в столбце H, выберите команду Сервис®Параметры... и на вкладке Вид в области Параметры окна включите опцию Формулы. Увеличьте ширину столбца H, чтобы формулы были видны полностью. Для предсказания цены используется функция ПРЕДСКАЗ. Допустим, мы хотим знать цену для объекта с жилой площадью в 1000 квадратных метров. 23. В ячейку D8 введите Площадь, а в ячейку F8 введите Предсказанная цена, в ячейку H8 введите Функция. В ячейке D9 задайте значение 1000. 24. Выделите ячейку H9 и вызовите Мастер функций. 25. В списке статистических функций выберите функцию ПРЕДСКАЗ. В диалоговом окне Аргументы функции задайте значение X, выделив ячейку D9, а также соответствующие диапазоны переменных Y (Цена) и X (Площадь), не включая меток. Щелкните на кнопке ОК. В ячейке H9 будет выведена формула. 26. Выделите ячейку с формулой H9 и выполните команду: Правка®Копировать, а затем выделите ячейку F9 и выполните команду: Правка®Специальная вставка... В диалоговом окне включите опцию значения и щелкните на кнопке ОК. Какую стоимость будет иметь объект с жилой площадью в 1000 квадратных метров? |
Контрольные вопросы
11. В чем разница между корреляционным анализом и регрессионным анализом?
12. Какова основная задача регрессионного анализа?
13. Какой вид анализа (корреляционный или регрессионный) применяется в каждой из описанных ниже ситуаций?
а) Выяснение наличия какой-либо взаимосвязи между расходами на рекламу и объемом продаж.
б) Разработка системы прогнозирования эффективности портфеля ценных бумаг, основанной на изменениях одного из ведущих индексов фондовой биржи.
в) Создание инструмента формирования сметы, позволяющего выражать затраты в терминах количества произведенных изделий.
г) Анализ данных с целью определения силы взаимосвязи между моральным состоянием работников и их производительностью.
14. Какой вид имеет выборочная функция линейной регрессии?
15. С какой целью используется МНК? Чем характеризуется этот метод?
16. Чем отличается линия наименьших квадратов от других линий на диаграмме рассеяния?
17. Как интерпретируются коэффициенты линейной регрессии b0, b1.
18. Что показывает коэффициент детерминации R2? Какое значение R2 лучше, более низкое или более высокое?
19. Как интерпретируется стандартная ошибка оценки для линии регрессии? Какое значение стандартной ошибки лучше, более низкое или более высокое?
20. Какие характеристики используются при оценке значимости коэффициента регрессии?
21. Каким образом осуществляется прогнозирование в построенной линейной модели регрессии?