Статистику иногда определяют как науку принятия разумных решений в условиях неопределенности, когда действуют те или иные случайные факторы. Во многих случаях экспериментатор принимает решения, руководствуясь здравым смыслом и статистическими выводами, извлеченными из опытных данных. Получение обобщающих выводов из данных - основная цель статистики.
В оставшейся части настоящей работы мы уделим внимание двум категориям статистических задач: оценивание (точечное и интервальное) и проверка статистических гипотез. Это настолько обширные, глобальные темы, что мы познакомимся с ними лишь частично, делая ударение на методологии и примерах.
Например, у нас может возникнуть желание по наблюдениям, которые предполагаются нормально распределенными, получить число - точечную оценку параметра σ2 , или же получить некоторый интервал, который с той или иной степенью достоверности содержит истинное значение параметра σ2 . Возможно, мы захотим проверить наше предположение о нормальности распределения, обращаясь к теории проверки статистических гипотез.
Точечные оценки.
Нередко, сделав допущение о типе закона распределения, ищут по выборке приближенные значения (точечные оценки) его параметров. Неизвестный параметр распределения обозначают , а его точечную оценку .
Итак, - истинное значение параметра, постоянное неизвестное число. В наших примерах под мы часто понимаем математическое ожидание МХ либо дисперсию DХ=σ2 cл. величины X. - число, полученное по выборке и близкое к . По разным выборкам оценка примет разные значения вблизи .
Величина случайная, а - нет.
Оценка вычисляется по выборке (X1 ,Х2 , . . . ,Хn ) , т.е. это функция выборки: =g (Х1 ,Х2 , . . . ,Хn ) , поэтому называется статистикой. Как же подобрать функцию g, т.е. какие операции надо производить с точками выборки, чтобы получить хорошую оценку? Но что значит "хорошую"? Будет ли для истинного среднего =МХ хорошей оценкой выборочное среднее ? А, может, лучше полусумма (Х(1)+X(n))/2 наибольшего и наименьшего наблюдения, или, например, выборочная медиана ?
По сути дела под хорошей мы понимаем такую оценку, которая с большой вероятностью близка к истинному . Уточняя сказанное, рассмотрим три желательных свойства точечной оценки .
1. Состоятельность. Оценка состоятельна, если при увеличении объема выборки она неограниченно приближается к истинному . Для конечной генеральной совокупности оценка, полученная по всем элементам генеральной совокупности, даст точное значение . Когда же генеральная совокупность мыслится неограниченной, то состоятельность оценки означает, что при числе наблюдений n-> математическое ожидание оценки стремится к , а дисперсия ее к нулю:
(9)
Свойство состоятельности говорит, какова оценка при , и ничего не говорит о том, какова она при реальных значениях n . Поэтому состоятельность - необходимое требование к хорошей оценке, но недостаточное.
Как мы убедились, выводя формулу (8), МХn =МХ при любом n, а DХ=б2/n -> 0 при . Значит, выборочное среднее есть состоятельная оценка для математического ожидания МХ (здесь Хn= , а МХ = ). Но состоятельными будут также и такие оценки МХ : , , поскольку число 100 становится пренебрежимо мало по сравнению с .
2. Несмещенность. Это свойство связано с поведением оценки при каждом конкретном n. У оценки , как случайной величины, есть математическое ожидание M . Разность -М называют смещением оценки . Смещение - средняя ошибка оценки и, если, она равна нулю, то оценку называют несмещенной. Итак, оценку называют несмещенной, если для любого n
(10)
Несмещенность оценки обозначает, что при всяком n среднее значение оценки, взятое по всевозможным выборкам данного объема n, в точности равно истинному значению параметра.
Оценка для среднего МХ несмещенная:
М =МХ, а оценки и , упомянутые выше, смещенные, например
М =
Пример 14. На рисунке 7 показаны для данного n законы распределения (плотности) трех оценок и параметра . Какая из оценок лучше?
Оценка лучше, чем , так как при одинаковой дисперсии оценка несмещенная: центр ее распределения совпадает с истинным . Величина М( - )=M - - смещение оценки , не равное нулю. Оценка не только несмещенная, но из трех оценок имеет меньшую дисперсию, значит, - лучшая из трех оценок.
3. Эффективность. Пусть для параметра мы имеем две несмещенные оценки (подобно и на рис.7) и выборку объема n. Какой оценкой пользоваться? Эффективна та, у какой меньше дисперсия.
Определение. Эффективной называется та из несмещенных оценок, у которой при данном объеме n минимальна дисперсия. Оказывается, наилучшей (точнее, эффективной) оценкой математического ожидания МХ нормальной величины является выборочное среднее . Математическая статистика показывает, как строить эффективные или близкие к ним оценки параметров разных распределений. Легко показать, что оценка дисперсии S2 = (1/n)Σ(х1- )2 - выборочная дисперсия - является смещенной оценкой. Какому бы закону ни подчинялась cл.величина X, порождающая выборку, всегда среднее значение МS2 = DХ * (n-1)/n DХ. Чтобы получить несмещенную оценку , достаточно ввести небольшую поправку: = [n/(n-1)]* S2.
Для исправленной дисперсии имеем среднее:
Хотя при большом числе n состоятельные оценки S2 и практически совпадают при небольшом числе n лучше пользоваться несмещенной оценкой .
Сценка стандартного отклонения имеет несущественное для приложений смещение (это не противоречит несмещенности ).
Ранее мы ввели понятие моментов cл. величин и их оценок по выборке: статистических моментов. Как следствие закона больших чисел, статистические моменты являются состоятельными оценками теоретических моментов. Хотя эти оценки могут быть смещенными (например, оценка S2 дисперсии DХ), они по своим статистическим свойствам ненамного уступают эффективным оценкам, но выигрывают в простоте вычисления. Поэтому один из методов получения состоятельных оценок параметров распределения основан на моментах и так и называется "метод моментов”.
МЕТОД МОМЕНТОВ
Если параметр распределения сам является моментом, как МХ или DХ, то за его оценку в этом методе берут соответствующий статистический момент (например, или ). Когда интересует характеристика θ распределения, отличная от начального или центрального момента, ее выражают как функцию одного или нескольких моментов и затем в качестве аргументов этой функции вместо теоретических моментов подставляют статистические.
Например, если , то .
Пример. Найти формулу для оценки методом моментов срединного отклонения Е нормального распределения. Срединное отклонение , поскольку для нормальной величины X ~ N(μ,б2) вероятность Р{μ - 0, 674б<Х<μ+0, 6746 } = 1/2 .
Заменяя дисперсию в формуле на S2 - статистический центральный момент второго порядка, получим оценку срединного отклонения:
.
Пример.
Пусть неизвестный параметр - математическое ожидание. Тогда в нормальном распределении
Эта характеристика является состоятельной (закон больших чисел).
Пример.
Смещенная выборочная характеристика.
Пусть в нормальном распределении следует оценить дисперсию. Положим в качестве выборочной характеристики случайную величину
=
=
= ,
т.к.
Доказать, что выборочная характеристика
=
является несмещенной для дисперсии
=
ИНТЕРВАЛЬНОЕ ОЦЕНИВАНИЕ
Мы видели, что точечная оценка параметра есть случайная величина, имеющая некоторый разброс возле истинного значения параметра, а потому мы допускаем какую-то ошибку, приравнивая истинное значение параметра численному значению оценки. Здесь же мы рассмотрим вопрос получения интервальных оценок, т.е. возможность построения некоторого интервала, содержащего (накрывающего) истинное значение параметра с заданной вероятностью. Эту вероятность β называют по-разному: доверительной вероятностью, коэффициентом доверия или гарантией, а построенный интервал - доверительным. Доверительный интервал для параметра θ, соответствующий доверительной вероятности β, обозначим Iβ(θ) - это интервал для θ, построенный по случайной выборке (и потому случайный) и накрывающий истинное значение θ (постоянное и обычно неизвестное нам) с заданной вероятностью β, т.е.
(13)
Величина β влияет на величину интервала Iβ(θ): чем больше β, тем шире интервал. Принято брать β равным 0,95 или 0,99. Если, приняв β=0,99, мы по выборкам будем строить доверительные интервалы, то в среднем 1 на 100 интервалов не будет содержать истинное значение θ параметра, т.е. будет лежать в стороне от. θ (какой именно один из ста мы, конечно, не знаем, поскольку θ не известно).
Чтобы понять метод построения доверительных интервалов в простейших задачах, рассмотрим некоторые из них.