math_stat_python
math_stat_python copied to clipboard
Goal of this repository is to help students to solve math stat home tasks
Как делать задания?
Приведённые python-скрипты это пример, где вам нужно понять, что поменять так, что бы все работало для вашего варианта. По этой же причине код был написан и прокомментирован.
Как запустить?
$ git clone https://github.com/Sammers21/math_stat_python
$ cd math_stat_python
$ python problem<номер_задачи>.py
Заметка: для запуска всех задач необходимы python-библиотеки: scipy, numpy, matplotlib, pandas, statsmodels. Версия python 3.5.2 или выше
Пример пояснительной записки к:
Номеру 4: https://www.evernote.com/shard/s267/sh/20c765ce-65bd-4590-9455-72512dc2ad3a/1795f8e28d6b3966d58e94c024d9378b
Номеру 5: https://www.evernote.com/shard/s267/sh/49f91974-1090-4d64-9315-60c0a1b80fc2/9bfe1f4704883bf9a8e0ba073188827e
Номеру 6: http://telegra.ph/Zadacha-6-06-06
Номеру 7: http://telegra.ph/Zadanie-7-06-08
Вопросы к заданию номер 1
№1
Вопрос: Как можно сгенерировать ваше распределение с использованием лишь равномерного распределения R(0,1)?
Ответ: Находим обратную функцию и подставляем значения равномерного распределения.
№2
Вопрос (вытекающий из первого): А какая обратная функция к вашей?
Ответ: Взял мел и написал её на доске или бумаге.
№3
Вопрос: Что такое медиана и какова медиана вашего распределения?
Ответ: Медиана — квантиль уровня 0.5, т.е. такое значение распределения, получить значение меньше которого можно с вероятностью 1/2. Чтобы найти его, нужно решить уравнение вида F(x) = 1/2, где F - функция распределения.
№4
Вопрос: Дайте определение центральной предельной теоремы (ЦПТ)
Ответ:

№5
Вопрос: Что такое дисперсия?
Ответ: Дисперсия: D(X) = E((X-E(X))^2)
Вопросы к заданию номер 2
№1
Вопрос: Что такое ошибка первого и второго рода?
Ответ:

№2
Вопрос: Что такое уровень доверия?
Ответ: Уровень доверия — статистический термин, означающий вероятность того, что доверительный интервал содержит истинное значение параметра.
№3
Вопрос: А какую вы будете использовать статистику для оценки:
a) мат ожидания с известной дисперсией
б) мат ожидания с неизвестной дисперсией
в) дисперсии с известным мат ожиданем
г) дисперсии с неизвестным мат ожиданем
Ответы на a) и б)

Ответы на в) и г)

Вопросы к заданию номер 3
№1
Вопрос: Приведите пример выборки, для которой коэффициент Пирсона будет близок к нулю, а Спирмена — к единице
Ответ: Выброс, см. пример на нижеприведенной иллюстрации

№2
Вопрос: При каких условиях коэффициент такой-то будет принимать крайнее значение такое-то
Ответ:
| к-т \ значение | -1 | 1 |
|---|---|---|
| Пирсона | y = ax + b, a < 0 (обратная линейная связь) |
y = ax + b, a > 0 (прямая линейная связь) |
| Спирмена | x_i > x_j => y_i < y_j (строго обратная связь) |
x_i > x_j => y_i > y_j (строго прямая связь) |
Вопросы к заданию номер 4
№1
Вопрос: Классическая линейная нормальная регресионная модель.
Ответ: Если регрессионная модель отвечает данным условиям:
-
-
— детерминированные (неслучайные) величины
-
(дисперсия ошибки постоянна - гомоскедастичность)
-
— некоррелированность ошибок
-
-
регрессоры линейно независимы
То она называется классической линейной нормальной регрессионной моделью (КЛНРМ)
№2
Вопрос: Метод наименьших квадратов и теорема Гаусса-Маркова.
Ответ: МНК заключается в нахождении таких коэффициентов регрессии, при которых суммма квадратов ошибок будет наименьшей:
Берётся частная производная по каждому коэффиценту, приравнивается к нулю. Из таких уравнений составляется и решается система.
Теорема Гаусса Маркова: если выполнены все предпосылки КЛНРМ кроме нормальности (она может и выполняться, но это не обязательно), то оценки МНК будут эффективными в классе линейных несмещённых оценок. Т.е. они несмещённые и имеют наименьшие дисперсии среди всех линейных несмещённых.
№3
Вопрос: Оценка дисперсии случайной составляющей и ковариационной матрицы оценок коэффициентов регрессии.
Ответ:
k — количество оцениваемых коэффициентов
№4
Вопрос: Коэффициент детерминации.
Ответ:
Это доля дисперсии зависимой переменной, объяснённая моделью. Принимает значения от 0 до 1. Чем он выше, тем лучше подобрана модель и больше зависимость объясняемой переменной от объясняющих.
№5
Вопрос: Доверительный интервал для коэффициента регрессии.
Ответ:
t — квантиль распределения t(n-k)
№6
Вопрос: Проверка гипотезы о значении коэффициента и значимости регрессии в целом.
Ответ: Из методички от Zakhse:


№7
Вопрос: Проверка гипотезы о линейном ограничении.
Ответ: Из методички от Zakhse:

Вопросы к заданию номер 5
№1
Вопрос: Интерпретация коэффициентов линейной, полулогарифмической и логарифмической моделей регрессии.
Ответ: Из статьи Фурманова К.К.:

№2
Вопрос: Тесты на правильность спецификации: график «остатки-прогнозы», тест Рамсея.
Ответ: Читаем статью Фурманова К.К.!
Вопросы к заданию номер 6
№1
Вопрос: Линейная модель вероятности. Модели logit и probit, их оценивание методом максимального правдоподобия.
Ответ:

№2
Вопрос: Интерпретация коэффициентов линейной и логит моделей.
Ответ:
- Для Logit:

- Для линейной:

№3
Вопрос: Что такое Pseudo R^2?
Ответ:

Вклад
Каждый из вас, кто читает это README может помочь своим однокурсникам.
- Если тут нет вопроса, который Фурманов задавал вам, то не стесняйтесь и добавьте его (посредством pull request).
- Если у вас есть проблема, с которой вы столкнулись и не можете решить, то создайте issue в этом репозитории. Помощь обязательно будет. Быстрая и оперативная.
- Если вы считаете, что в коде, который демонстрирует примерное решение задачи, есть ошибка, то непременно исправьте её или сообщите о ней.