1. Основные определения и формулы

Множественная регрессия – регрессия между переменными  и  т.е. модель вида: 

где  – зависимая переменная (результативный признак);

 – независимые объясняющие переменные;

 – возмущение или стохастическая переменная, включающая влияние неучтенных в модели факторов;

 – число параметров при переменных 

Основная цель множественной регрессии – построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель.

Уравнение множественной линейной регрессии в случае  независимых переменных имеет вид  а в случае двух независимых переменных –  (двухфакторное уравнение).

Для оценки параметров уравнения множественной регрессии применяют метод наименьших квадратов. Строится система нормальных уравнений:

Решение этой системы позволяет получить оценки параметров регрессии с помощью метода определителей

 …, 

где  – определитель системы;

 – частные определители, которые получаются путем замены соответствующего столбца матрицы определителя системы данными правой части системы.

Для двухфакторного уравнения коэффициенты множественной линейной регрессии можно вычислить по формулам:

Частные уравнения регрессии характеризуют изолированное влияние фактора на результат, ибо другие факторы закреплены на неизменном уровне. Эффекты влияния других факторов присоединены в них к свободному члену уравнения множественной регрессии. Это позволяет на основе частных уравнений регрессии определять частные коэффициенты эластичности:

Средние коэффициентами эластичности показывают на сколько процентов в среднем изменится результат при изменении соответствующего фактора на 1%:

Их можно сравнивать друг с другом и соответственно ранжировать факторы по силе их воздействия на результат.

Тесноту совместного влияния факторов на результат оценивает коэффициент (индекс) множественной корреляции:

Величина индекса множественной корреляции лежит в пределах от 0 до 1 и должна быть больше или равна максимальному парному индексу корреляции: 

Чем ближе значение индекса множественной корреляции к 1, тем теснее связь результативного признака со всем набором исследуемых факторов.

Сравнивая индексы множественной и парной корреляции, можно сделать вывод о целесообразности (величина индекса множественной корреляции существенно отличается от индекса парной корреляции) включения в уравнение регрессии того или иного фактора.

При линейной зависимости совокупный коэффициент множественной корреляции определяется через матрицу парных коэффициентов корреляции:

где  – определитель матрицы парных коэффициентов корреляции;

– определитель матрицы межфакторной корреляции.

Частные коэффициенты корреляциихарактеризуют тесноту линейной зависимости между результатом и соответствующим фактором при устранении влияния других факторов. Если вычисляется, например,  (частный коэффициент корреляции между и  при фиксированном влиянии ), это означает, что определяется количественная мера линейной зависимости между  и  которая будет иметь место, если устранить влияние на эти признаки фактора 

Частные коэффициенты корреляции, измеряющие влияние на  фактора  при неизменном уровне других факторов, можно определить как:

или по рекуррентной формуле:

Для двухфакторного уравнения:

  или

 

Частные коэффициенты корреляции изменяются в пределах от -1 до +1.

Сравнение значений парного и частного коэффициентов корреляции показывает направление воздействия фиксируемого фактора. Если частный коэффициент корреляции  получится меньше, чем соответствующий парныйкоэффициент  значит взаимосвязь признаков  и  в некоторой степени обусловлена воздействием на них фиксируемой переменной  И наоборот, большее значение частного коэффициента по сравнению с парным свидетельствует о том, что фиксируемая переменная  ослабляет своим воздействием связь  и 

Порядок частного коэффициента корреляции определяется количеством факторов, влияние которых исключается. Например, – коэффициент частной корреляции первого порядка.

Зная частные коэффициенты корреляции (последовательно первого, второго и более высокого порядка), можно определить совокупный коэффициент множественной корреляции:

Качество построенной модели в целом оценивает коэффициент (индекс) множественной детерминации, который рассчитывается как квадрат индекса множественной корреляции:  Индекс множественной детерминации фиксирует долю объясненной вариации результативного признака за счет рассматриваемых в регрессии факторов. Влияние других, не учтенных в модели факторов, оценивается как 

Если число параметров при  близко к объему наблюдений, то коэффициент множественной корреляции приблизится к единице даже при слабой связи факторов с результатом. Для того чтобы не допустить возможногопреувеличения тесноты связи, используется скорректированный индекс множественной корреляции, который содержит поправку на число степеней свободы:

Чем больше величина  тем сильнее различия  и 

Значимость частных коэффициентов корреляции проверяется аналогично случаю парных коэффициентов корреляции. Единственным отличием является число степеней свободы, которое следует брать равным =--2.

Значимость уравнения множественной регрессии в целом, так же как и в парной регрессии, оценивается с помощью -критерия Фишера:

Мерой для оценки включения фактора в модель служит частный -критерий. В общем виде для фактора  частный -критерий определяется как

Для двухфакторного уравнения частные -критерии имеют вид:

 

Если фактическое значение превышает табличное, то дополнительное включение фактора  в модель статистически оправданно и коэффициент чистой регрессии  при факторе  статистически значим. Если же фактическое значение  меньше табличного, то фактор нецелесообразно включать в модель, а коэффициент регрессии при данном факторе в этом случае статистически незначим.

Для оценки значимости коэффициентов чистой регрессии по -критерию Стьюдента используется формула:

где  – коэффициент чистой регрессии при факторе 

 – средняя квадратическая (стандартная) ошибка коэффициента регрессии  которая может быть определена по формуле:

При дополнительном включении в регрессию нового фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться. Если это не так, то включаемый в анализ новый фактор не улучшает модель и практически является лишним фактором. Насыщение модели лишними факторами не только не снижает величину остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к статистической незначимости параметров регрессии по -критерию Стьюдента.

При построении уравнения множественной регрессии может возникнуть проблема мультиколлинеарности факторов. Считается, что две переменные явно коллинеарны, т.е. находятся между собой в линейной зависимости, если  Если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии. Предпочтение при этом отдается не фактору, более тесно связанному с результатом, а тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами.

Для оценки мультиколлинеарности факторов может использоваться определитель матрицы парных коэффициентов корреляции между факторами. Чем ближе к 0 определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И наоборот, чем ближе к 1 определитель, тем меньше мультиколлинеарность факторов.

Для применения МНК требуется, чтобы дисперсия остатков была гомоскедастичной. Это означает, что для каждого значения фактора  остатки  имеют одинаковую дисперсию. Если это условие применения МНК не соблюдается, то имеет место гетероскедастичность. При нарушении гомоскедастичности выполняются неравенства  

Наличие гетероскедастичности можно наглядно видеть из поля корреляции (рис. 9.22).

0708

а)б)

09

в)

Рис. 9.22. Примеры гетероскедастичности:

 

а) дисперсия остатков растет по мере увеличения 

б) дисперсия остатков достигает максимальной величины при средних значениях переменной  и уменьшается при минимальных и максимальных значениях 

в) максимальная дисперсия остатков при малых значениях  и дисперсия остатков однородна по мере увеличения значений 

Для проверки выборки на гетероскедастичность можно использовать метод Гольдфельда-Квандта (при малом объеме выборки) или критерий Бартлетта (при большом объеме выборки).

Последовательность применения теста Гольдфельда-Квандта:

1) Упорядочить данные по убыванию той независимой переменной, относительно которой есть подозрение на гетероскедастичность.

2) Исключить из рассмотрения  центральных наблюдений. При этом  где  – число оцениваемых параметров. Из экспериментальных расчетов для случая однофакторного уравнения регрессии рекомендовано при =30 принимать =8, а при =60 соответственно =16.

3) Разделить совокупность из  наблюдений на две группы (соответственно с малыми и большими значениями фактора ) и определить по каждой из групп уравнение регрессии.

4) Вычислить остаточную сумму квадратов для первой  и второй  групп и найти их отношение  где При выполнении нулевой гипотезы о гомоскедастичности отношение  будет удовлетворять -критерию Фишера со степенями свободы  для каждой остаточной суммы квадратов. Чем больше величина  превышает  тем более нарушена предпосылка о равенстве дисперсий остаточных величин.

 

Если необходимо включить в модель факторы, имеющие два или более качественных уровней (пол, профессия, образование, климатические условия, принадлежность к определенному региону и т.д.), то им должны быть присвоены цифровые метки, т.е. качественные переменные преобразованы в количественные. Такого вида сконструированные переменные называют фиктивными (искусственными) переменными.

Коэффициент регрессии при фиктивной переменной интерпретируется как среднее изменение зависимой переменной при переходе от одной категории к другой при неизменных значениях остальных параметров. Значимость влияния фиктивной переменной проверяется с помощью -критерия Стьюдента.

 
2. Решение типовых задач
 
3. Дополнительные сведения для решения задач с помощью MS Excel

 

Написать комментарий

Ваше имя:


Ваш комментарий:
Введите код, указанный на картинке: