Всё сдал! - помощь студентам онлайн Всё сдал! - помощь студентам онлайн

Реальная база готовых
студенческих работ

Узнайте стоимость индивидуальной работы!

Вы нашли то, что искали?

Вы нашли то, что искали?

Да, спасибо!

0%

Нет, пока не нашел

0%

Узнайте стоимость индивидуальной работы

это быстро и бесплатно

Получите скидку

Оформите заказ сейчас и получите скидку 100 руб.!


Метод главных компонентов

Тип Реферат
Предмет Информационные технологии

ID (номер) заказа
1845773

200 руб.

Просмотров
1448
Размер файла
888.84 Кб
Поделиться

Ознакомительный фрагмент работы:

Содержание

Введение 3
1 Статистический подход в методе главных компонент 5
2 Многомерное нормальное распределение 10
3 Линейная модель  метода главных  компонент. Метод  Фаддеева -
одновременное  вычисление коэффициента  характеристического 
многочлена и присоединенной  матрицы 14
Заключение 23
Список использованной литературы 25


Введение

Во многих задачах обработки многомерных наблюдений и, в частности, в задачах классификации, исследователей в первую очередь интересуют только те признаки, которые проявляют наибольшую изменчивость (наибольшее распространение) при переходе от одного объекта к другому.
С другой стороны, нет необходимости использовать какой-либо из начальных признаков, непосредственно измеренных на нем, для описания состояния объекта. Так, например, для определения специфики фигуры человека при покупке одежды достаточно назвать значения двух признаков (размер-рост), которые выводятся из измерений ряда параметров фигуры. В то же время, конечно, некоторая часть информации теряется (портной измеряет до одиннадцати параметров на клиенте), как если бы классы, получающиеся в результате, были шероховатыми (при агрегировании). Однако исследования показали, что система, которая использует три атрибута, каждый из которых представляет собой комбинацию большого количества параметров, непосредственно измеренных на объекте, приводит к совершенно удовлетворительной классификации людей с точки зрения специфики их фигуры.
Именно эти фундаментальные принципы заложены в сущности линейного преобразования исходной системы признаков, которая приводит к основным компонентам.
Существует два основных подхода к факторному анализу: анализ основных компонентов (МГК) и анализ общих факторов. В целом, факторный анализ включает в себя методы, помогающие создать меньшее число линейных комбинаций переменных, чтобы приведенные переменные учитывали и объясняли большинство различий в шаблоне матрицы корреляции. Принципиальный компонентный анализ - это подход к факторному анализу, который учитывает общую дисперсию в данных, которая отличается от обычного факторного анализа, и преобразует исходные переменные в меньший набор линейных комбинаций. Диагональ корреляционной матрицы состоит из единиц, и полная дисперсия заносится в матрицу факторов. Термин «фактор-матрица» - это матрица, которая содержит факторные загрузки всех переменных по всем извлеченным факторам. Термин «факторные нагрузки» - это простые корреляции между факторами и переменными. Анализ основных компонентов рекомендуется, когда основной задачей исследователя является определение минимального количества факторов, которые будут учитывать максимальную дисперсию данных, используемых в конкретном многомерном анализе, как в исследованиях Delphi. При проведении анализа основных компонентов исследователь может хорошо разбираться в таких терминах, как стандартные отклонения и собственные значения. Собственные значения относятся к общей дисперсии, объясняемой каждым фактором. Стандартное отклонение измеряет изменчивость данных. Задача анализа главных компонентов состоит в том, чтобы идентифицировать закономерности в данных и направлять данные, выделяя их сходства и различия.
1 Статистический подход в методе главных компонентКомпонентный анализ относится к многомерным методам уменьшения размерности. Он содержит один метод - метод основного компонента. В этом методе линейные комбинации случайных величин определяются характеристическими векторами ковариационной матрицы. Основными компонентами являются ортогональные системы координат, в которых дисперсии компонентов характеризуют их статистические свойства.
В зависимости от конкретных задач, решаемых в экономике, используется один из методов факторного анализа или метод основных компонентов.
Метод главных компонент (МГК) считается статистическим методом. Однако существует другой подход, приводящий к методу главных компонентов, но не являющийся статистическим. Этот подход связан с получением наилучшей проекции точек наблюдения в пространстве меньшей размерности. Чтобы решить эту проблему, нужно знать матрицу вторых моментов.
МГК изначально происходит из области линейной алгебры. Это метод преобразования, который создает (взвешенные линейные) комбинации исходных переменных в наборе данных с намерением, чтобы новые комбинации захватили как можно большую дисперсию (т. Е. Разделение между точками) в наборе данных, исключая при этом корреляции ( т.е. избыточность).
МГК создает новые переменные путем преобразования исходных (среднецентрированных) наблюдений (записей) в наборе данных в новый набор переменных (измерений), используя собственные векторы и собственные значения, рассчитанные из ковариационной матрицы ваших исходных переменных.
Это глоток. Давайте разберемся с этим, начиная с центрирования исходных переменных.
Первым шагом МГК является центрирование значений всех входных переменных (например, вычитание среднего значения каждой переменной из значений), делая среднее значение каждой переменной равным нулю. Центрирование является важным этапом предварительной обработки, поскольку оно гарантирует, что полученные компоненты смотрят только на дисперсию в наборе данных, а не фиксируют общее среднее значение набора данных в качестве важной переменной (измерения). Без центрирования среднего значения первый главный компонент, найденный МГК, может соответствовать среднему значению данных, а не направлению максимальной дисперсии.
После центрирования данных (и, возможно, их масштабирования в зависимости от единиц измерения переменных) необходимо рассчитать ковариационную матрицу данных.
Ковариация измеряется между двумя переменными (измерениями) одновременно и описывает, как связаны значения переменных друг с другом: например, как наблюдаемые значения увеличения x одинаковы для переменной y? Большое значение ковариации (положительное или отрицательное) указывает, что переменные имеют сильную линейную связь друг с другом. Значения ковариации, близкие к 0, указывают на слабую или несуществующую линейную зависимость.
Ковариация всегда измеряется в двух измерениях. Если вы имеете дело с более чем двумя переменными, наиболее эффективный способ убедиться, что вы получили все возможные значения ковариации, - это поместить их в матрицу (следовательно, ковариационную матрицу). В ковариационной матрице диагональ является дисперсией для каждой переменной, а значения по диагонали являются зеркалом друг для друга, поскольку каждая комбинация переменных включается в матрицу дважды. Это квадратная симметричная матрица.
Поскольку они являются квадратными и симметричными, ковариационные матрицы являются диагонализируемыми, что означает, что собственное разложение может быть вычислено на матрице. Здесь МГК находит собственные векторы и собственные значения для набора данных.
Собственный вектор линейного преобразования - это (ненулевой) вектор, который изменяется на скалярное кратное самого себя, когда к нему применяется соответствующее линейное преобразование. Собственное значение - это скаляр, связанный с собственным вектором. Самая полезная вещь, которую я нашел для понимания собственных векторов и значений, - это увидеть пример (если это не имеет смысла, попробуйте посмотреть этот урок умножения матриц из Ханской академии).
Есть несколько вещей, которые следует учитывать перед применением МГК.
Нормализация данных до выполнения МГК может быть важной, особенно когда переменные имеют разные единицы измерения или шкалы. Это можно сделать в инструменте «Дизайнер», выбрав параметр «Масштабировать каждое поле», чтобы иметь единицу отклонения.
МГК предполагает, что данные могут быть аппроксимированы линейной структурой и что данные могут быть описаны с меньшим количеством функций. Предполагается, что линейное преобразование может и будет охватывать наиболее важные аспекты данных. Это также предполагает, что высокая дисперсия в данных означает, что существует высокое отношение сигнал / шум.
Уменьшение размерности приводит к потере некоторой информации. Не сохраняя все собственные векторы, некоторая информация теряется. Однако, если собственные значения собственных векторов, которые не включены, малы, вы не теряете слишком много информации.
Другое соображение, которое следует учитывать при использовании МГК, заключается в том, что переменные становятся менее интерпретируемыми после преобразования. Входная переменная может означать что-то конкретное, например, «воздействие ультрафиолетового света», но переменные, созданные МГК, представляют собой путаницу исходных данных и не могут быть поняты так, как «увеличение воздействия ультрафиолетового излучения коррелирует с увеличением наличие рака кожи ». Менее объяснимое означает и менее объяснимое, когда вы представляете свои модели другим.
В статистическом подходе задача состоит в том, чтобы выделить линейные комбинации случайных величин, имеющих максимально возможную дисперсию. Он опирается на ковариационную или корреляционную матрицу этих случайных величин. Эти два разных подхода имеют общий аспект: использование матрицы вторых точек в качестве отправной точки для начала анализа.
Из вышеизложенного следует, что для освоения метода главных компонент необходимо использовать методы теории вероятностей и математической статистики, основанные на моделях линейной алгебры. Рассмотрим основные положения этих математических дисциплин, в основе которых лежит метод главных компонентов.
Учитывая, что объекты исследований в экономике (предприятие, завод, министерство, национальное хозяйство, экономика страны) характеризуются большим, но конечным количеством признаков (характеристик), на влияние которых влияет большое количество случайных причин. В качестве моделей мы берем многомерное распределение, а в алгебраическом - многомерное пространство знаков.
Если мы рассмотрим это с экономической точки зрения, метод основных компонентов используется при оценке стоимости бизнеса, и этот метод также используется при анализе экономической безопасности региона для анализа признаков, которые оказывают наибольшее влияние на результаты банков.
Применение метода также осуществляется при анализе конъюнктуры рынка, модели рынка.
Говоря о методе многомерного статистического анализа с использованием основных компонентов, а также об оценке эффективности экономических организаций, экономических систем и систем управления, мы рассмотрим проблемы обработки многомерных наблюдений в экономике и проблемы совершенствования метода основных компонентов. и расширение сферы его применения. Изучены основные принципы исследования операций, используемые в теории эффективности; Эффективность оценивается по критериям - играм, информации, теории очередей.
2 Многомерное нормальное распределениеМатематическая модель, на которой основаны методы многомерного статистического анализа (включая методы факторного и компонентного анализа), является многомерным нормальным распределением. Такое распределение часто является наилучшим приближением к фактическому распределению на практике экономических проблем.
Из центральной предельной теоремы следует, что предельное распределение одномерных независимых случайных величин является одномерным нормальным законом.
Из обобщенной центральной предельной теоремы получаем, что предельное распределение в случае нескольких измерений является многомерным нормальным распределением.
В настоящее время многомерные методы, основанные на нормальном распределении, широко используются при изучении различных процессов в экономике.
Среди математических методов многомерного анализа выделяются:
1) корреляция;
2) аналоги одномерных статистических методов в многомерном анализе;
3) проблемы системы координат;
4) проблемы классификации;
5) зависимость наблюдений.
1. При изучении корреляции нас интересуют различные коэффициенты корреляции.
Выборочные коэффициенты корреляции используются для оценки соответствующих параметров распределения.
Коэффициент частичной корреляции измеряет взаимосвязь между случайными переменными, когда исключается влияние других скоррелированных случайных величин.
Используя коэффициент множественной корреляции, понятие коэффициента корреляции распространяется на измерение взаимосвязи между одной случайной величиной и множеством случайных величин.
2. Аналоги одномерных статистических методов.
Нужно отметить, что многие проблемы, решаемые в многомерном статистическом исследовании. Представим эти проблемы в виде таблицы (табл.1).Таблица .1 Аналоги одномерных статистических методов
Для этих задач выбор системы координат связан с линейным преобразованием переменных.
3. Проблемы системы координат.
В некоторых случаях хороший выбор новой системы координат может наиболее экономически идентифицировать некоторые важные свойства для исследователя многомерной случайной совокупности.
Примером является идентификация основных компонентов, то есть нахождение такой нормализованной линейной комбинации случайных величин, чтобы ее дисперсия была максимальной или минимальной. Это эквивалентно вращению осей, которое приводит ковариационную матрицу к диагональной форме. Другой пример - поиск канонических корреляций. Для решения таких задач необходимо определить характеристические векторы и характеристические корни различных систем линейных алгебраических уравнений.
4. Классификация задач.
Это разбиение множества случайных величин на подмножества. Возникает важный вопрос проверки гипотезы о независимости подмножеств. Факторный анализ, анализ главных компонентов и кластерный анализ обычно используются в задачах многомерной классификации.
5. Зависимость наблюдений.
Если в экономических исследованиях они занимаются анализом временных рядов, то они сталкиваются с наблюдениями ряда случайных величин, которые согласуются во времени. Наблюдения в данный момент времени могут зависеть от более ранних наблюдений. Это требует, например, изучения внутристрочной корреляции.
Такое уменьшение размерности может быть очень полезным шагом для визуализации и обработки многомерных наборов данных, сохраняя при этом максимально возможную дисперсию в наборе данных. Например, выбор L = 2 и сохранение только первых двух основных компонентов позволяет найти двумерную плоскость в многомерном наборе данных, в котором данные наиболее распространены, поэтому, если данные содержат кластеры, они тоже могут быть наиболее распространены, и, следовательно, наиболее видимым для построения на двухмерной диаграмме; тогда как, если два направления в данных (или две из исходных переменных) выбраны случайным образом, кластеры могут быть гораздо менее разнесенными друг от друга, и на самом деле могут быть гораздо более вероятными, чтобы существенно перекрывать друг друга, делая их неразличимыми.
Точно так же в регрессионном анализе, чем больше допустимых объяснительных переменных, тем больше вероятность перенастройки модели, что приведет к выводам, которые не будут обобщены для других наборов данных. Один из подходов, особенно когда существуют сильные корреляции между различными возможными объясняющими переменными, состоит в том, чтобы сократить их до нескольких основных компонентов, а затем запустить регрессию против них, метод, называемый регрессией главных компонентов.
Уменьшение размерности также может быть целесообразным, когда переменные в наборе данных зашумлены. Если каждый столбец набора данных содержит независимый идентично распределенный гауссов шум, то столбцы T также будут содержать аналогично идентично распределенный гауссов шум (такое распределение является инвариантным под влиянием матрицы W, которую можно рассматривать как многомерный вращение координатных осей). Однако, поскольку большая общая дисперсия сконцентрирована в первых нескольких основных компонентах по сравнению с той же дисперсией шума, пропорциональный эффект шума меньше - первые несколько компонентов достигают более высокого отношения сигнал / шум. Таким образом, может концентрировать большую часть сигнала в первые несколько основных компонентов, которые могут быть полезны для уменьшения размерности; в то время как в более поздних основных компонентах может преобладать шум, и поэтому их можно утилизировать без больших потерь
3 Линейная модель  метода главных  компонент. Метод  Фаддеева - одновременное  вычисление коэффициента  характеристического  многочлена и присоединенной  матрицы 
Множество главных компонентов представляет собой удобную систему координат, и соответствующие дисперсии главных компонентов характеризуют их статистические свойства. Из общего числа основных компонентов для исследования, как правило, m (m <n) остается наиболее значимым, т. е. вносит максимальный вклад в объясненную часть общей дисперсии. Опыт показал, что m ≈ (0,1 ÷ 0,25) n. Для экономической интерпретации полученных результатов наиболее очевидными являются случаи, когда m = 1,2 или 3.
Таким образом, несмотря на то, что в методе главных компонентов для точного воспроизведения корреляций и дисперсий между переменными необходимо найти все компоненты, большая доля дисперсий объясняется небольшим количеством главных компонентов. Кроме того, основные компоненты могут быть описаны с помощью знаков, а признаки могут быть описаны с помощью основных компонентов. Для центроидного метода факторного анализа это принципиально невозможно; можно только добиться того, чтобы дисперсия остатков была минимальной. S.R. Рао показал, что метод главных компонент одинаково хорошо приближает дисперсию и ковариацию. Наконец, следует отметить еще одно важное свойство метода - его линейность и аддитивность. Например, метод центроида содержит только гипотезу линейности. Если это правильно, то результаты можно использовать только для первого приближения. В настоящее время метод центроидов часто используется для получения приблизительных оценок, которые затем уточняются методом максимального правдоподобия.
При помощи методы Фадеева одновременно определяются:
а)  - скалярные коэффициенты характеристического многочлена
 (7)
б) B1,B2,….,Bn-1 - матричные коэффициенты присоединенной матрицы.
При помощи trA следа матрицы получаем
если  - характеристики числа матрицы A, т.е. .
Теорема. Если - все характеристические числа (с учетом крайностей) матрицы A, а  - некоторый скалярный многочлен, то  - являются характеристическими числами матрицы .
Частный случай. Дана матрица A;  - ее характеристические числа. Определить характеристические числа матрицы .
В соответствии с теоремой =.
Поэтому .
Отсюда следует, что 
Суммы  степеней многочлена (7) связаны с коэффициентами этого уравнения формулами Ньютона.
 (8)
Метод Леверрье. Определение коэффициентов характеристического многочлена по следам степеней матрицы заключается в следующем:
определяются  - следы матрицы .
по (8) последовательно определяются .
Фаддеев предложил вместо следов степеней матриц  вычислять последовательно следы других матриц  и с их помощью определить  и .
   (9)
Для контроля вычислений можно воспользоваться последней формулой . Убедимся, что по системе (9) ;  последовательно определяемые, являются коэффициентами  и .
Используя систему (9) для  и  получим:
 (10)
 (11)
Приравняем следы левой и правой частей (10)
 (12)
Выражения (12) и (8) совпадают с формулами Ньютона, по которым последовательно определяются коэффициенты характеристического многочлена . Значит, числа  системы (9) являются коэффициентами .
По формуле (11) определяют матричные коэффициенты  присоединительной матрицы .
Значит система (9) определяет коэффициенты  матричного многочлена .
При заданном наборе точек в евклидовом пространстве первый главный компонент соответствует линии, которая проходит через многомерное среднее и минимизирует сумму квадратов расстояний точек от линии. Второй главный компонент соответствует той же концепции после того, как все корреляции с первым главным компонентом были вычтены из точек. Особые значения (в Σ) - это квадратные корни из собственных значений матрицы XTX. Каждое собственное значение пропорционально части «дисперсии» (точнее, суммы квадратов расстояний точек от их многомерного среднего), которая связана с каждым собственным вектором. Сумма всех собственных значений равна сумме квадратов расстояний точек от их многомерного среднего. МГК по существу вращает набор точек вокруг их среднего значения, чтобы выровнять их с основными компонентами. Это перемещает максимально возможную дисперсию (используя ортогональное преобразование) в первые несколько измерений. Поэтому значения в остальных измерениях, как правило, малы и могут быть отброшены с минимальной потерей информации (см. Ниже). МГК часто используется таким образом для уменьшения размерности. МГК отличается тем, что является оптимальным ортогональным преобразованием для сохранения подпространства, которое имеет наибольшую «дисперсию» (как определено выше). Это преимущество, однако, достигается ценой более высоких вычислительных требований по сравнению, например, и когда это применимо, с дискретным косинусным преобразованием и, в частности, с DCT-II, который просто известен как «DCT». Нелинейные методы уменьшения размерности, как правило, требуют больших вычислительных ресурсов, чем МГК.
МГК чувствителен к масштабированию переменных. Если у нас есть только две переменные, и они имеют одинаковую дисперсию выборки и имеют положительную корреляцию, то МГК повлечет за собой поворот на 45 ° и «веса» (они являются косинусами вращения) для двух переменных относительно главной Компонент будет равен. Но если мы умножим все значения первой переменной на 100, то первый главный компонент будет почти таким же, как эта переменная, с небольшим вкладом другой переменной, тогда как второй компонент будет практически выровнен со второй исходной переменной. Это означает, что всякий раз, когда разные переменные имеют разные единицы (например, температуру и массу), МГК является несколько произвольным методом анализа. (Различные результаты были бы получены, если бы кто-то использовал Фаренгейт, а не Цельсия, например.) Оригинальная статья Пирсона была озаглавлена ​​«О линиях и плоскостях, наиболее близких к системам точек в пространстве» - «в пространстве» подразумевает физическое евклидово пространство, где такие проблемы имеют значение не возникает. Одним из способов сделать МГК менее произвольным является использование переменных, масштабированных таким образом, чтобы иметь единичную дисперсию, путем стандартизации данных и, следовательно, использования матрицы автокорреляции вместо матрицы автоковариации в качестве основы для МГК. Однако это сжимает (или расширяет) флуктуации во всех измерениях пространства сигнала до единичной дисперсии.
Среднее вычитание (a.k.a. «среднее центрирование») необходимо для выполнения классического МГК, чтобы гарантировать, что первый главный компонент описывает направление максимальной дисперсии. Если среднее вычитание не выполняется, первый главный компонент может вместо этого более или менее соответствовать среднему значению данных. Среднее значение нуля необходимо для нахождения базиса, который минимизирует среднеквадратичную ошибку аппроксимации данных.
Центрирование среднего значения не требуется при выполнении анализа главных компонентов на матрице корреляции, поскольку данные уже центрированы после вычисления корреляций. Корреляции получены из перекрестного произведения двух стандартных баллов (Z-баллов) или статистических моментов.
Нейронная сеть автоэнкодера с линейным скрытым слоем похожа на МГК. При сходимости векторы весов K нейронов в скрытом слое станут основой для пространства, охватываемого первыми K основными компонентами. В отличие от МГК, этот метод не обязательно будет производить ортогональные векторы, но главные компоненты могут быть легко восстановлены из них с помощью разложения по сингулярным числам.
МГК является популярным основным методом распознавания образов. Однако он не оптимизирован для разделения классов. Тем не менее, он использовался для количественной оценки расстояния между двумя или более классами путем вычисления центра масс для каждого класса в пространстве главных компонентов и сообщения евклидова расстояния между центром масс двух или более классов. Линейный дискриминантный анализ является альтернативой, оптимизированной для разделения классов.
Вариант анализа главных компонентов используется в нейробиологии для определения специфических свойств стимула, которые увеличивают вероятность нейрона генерирования потенциала действия. Этот метод известен как анализ ковариации, запускаемый спайками. В типичном приложении экспериментатор представляет процесс белого шума в качестве стимула (обычно либо в качестве сенсорного входа для испытуемого, либо в виде тока, вводимого непосредственно в нейрон), и записывает последовательность потенциалов действия или всплески, создаваемые нейрон в результате. Предположительно, определенные свойства стимула повышают вероятность нейрона. Чтобы извлечь эти особенности, экспериментатор вычисляет ковариационную матрицу спускового ансамбля, набор всех стимулов (определенных и дискретизированных по конечному временному окну, обычно порядка 100 мс), которые непосредственно предшествуют пику.
Собственные векторы разности между запускаемой шипами ковариационной матрицей и ковариационной матрицей предшествующего ансамбля стимулов (набор всех стимулов, определенных в одном и том же временном интервале длины) затем указывают направления в пространстве стимулов, вдоль которых дисперсия триггерный ансамбль больше всего отличался от ансамбля предшествующего стимула. В частности, собственные векторы с наибольшими положительными собственными значениями соответствуют направлениям, по которым дисперсия спускового ансамбля показала наибольшее положительное изменение по сравнению с дисперсией априора. Так как это были направления, в которых изменение стимула приводило к скачку, они часто являются хорошим приближением искомых соответствующих характеристик стимула.
В нейробиологии МГК также используется, чтобы отличить идентичность нейрона от формы его потенциала действия. Сортировка шипов является важной процедурой, потому что методы внеклеточной записи часто получают сигналы от более чем одного нейрона. При сортировке спайков сначала используют МГК для уменьшения размерности пространства сигналов потенциала действия, а затем выполняют кластерный анализ, чтобы связать определенные потенциалы действия с отдельными нейронами.
МГК как метод уменьшения размеров особенно подходит для обнаружения скоординированных действий больших нейронных ансамблей. Он использовался при определении коллективных переменных, то есть параметров порядка, во время фазовых переходов в мозге.
В МГК, как правило, мы хотим ввести качественные переменные в качестве дополнительных элементов. Например, многие количественные переменные были измерены на растениях. Для этих растений доступны некоторые качественные переменные, например, вид, к которому относится растение. Эти данные были подвергнуты МГК для количественных переменных. При анализе результатов естественно связать основные компоненты с качественными переменными видами. Для этого получены следующие результаты.
Идентификация на факторных плоскостях разных видов, например, с использованием разных цветов.
Представление на факторных плоскостях центров тяжести растений, принадлежащих к одному и тому же виду.
Для каждого центра тяжести и каждой оси, p-значение, чтобы судить о значимости разницы между центром тяжести и происхождением.
Анализ главных компонентов создает переменные, которые являются линейными комбинациями исходных переменных. Новые переменные имеют свойство, что все переменные являются ортогональными. Преобразование МГК может быть полезным в качестве этапа предварительной обработки перед кластеризацией. МГК - это ориентированный на дисперсию подход, направленный на воспроизведение полной дисперсии переменной, в которой компоненты отражают как общую, так и уникальную дисперсию переменной. МГК обычно предпочтительнее в целях сокращения данных (то есть преобразования переменного пространства в оптимальное пространство факторов), но не в тех случаях, когда целью является обнаружение скрытой конструкции или факторов.
Факторный анализ аналогичен анализу основных компонентов, в котором факторный анализ также включает линейные комбинации переменных. В отличие от МГК, факторный анализ является подходом, ориентированным на корреляцию, который стремится воспроизвести взаимные корреляции между переменными, в которых факторы «представляют общую дисперсию переменных, исключая уникальную дисперсию». С точки зрения матрицы корреляции это соответствует сосредоточению внимания на объяснении недиагональных членов (то есть общей ковариации), в то время как МГК фокусируется на объяснении условий, которые расположены на диагонали. Однако, как побочный результат, при попытке воспроизвести недиагональные члены, МГК также имеет тенденцию сравнительно хорошо соответствовать недиагональным корреляциям. Результаты, полученные с помощью МГК и факторного анализа, очень похожи в большинстве ситуаций, но это не всегда так, и есть некоторые проблемы, когда результаты значительно отличаются. Факторный анализ обычно используется, когда целью исследования является обнаружение структуры данных (то есть скрытых конструкций или факторов) или причинное моделирование. Если факторная модель неверно сформулирована или допущения не выполнены, то факторный анализ даст ошибочные результаты.
Заключение

Подводя итог всему вышесказанному, можно сказать, что наличие разнообразных исходных признаков, характеризующих процесс функционирования объектов, заставляет нас выбирать наиболее значимые из них и изучать меньший набор показателей. Чаще всего начальные функции подвергаются некоторому преобразованию, что обеспечивает минимальную потерю информации.
Такое решение может быть обеспечено методами уменьшения размерности, которые включают в себя факторный и компонентный анализ. Эти методы позволяют учесть влияние значительной многомерности данных и позволяют сделать краткое или более простое объяснение многомерных структур.
Они выявляют объективно существующие закономерности, которые нельзя непосредственно наблюдать, используя полученные факторы или основные компоненты. Они дают возможность достаточно просто и точно описать наблюдаемые исходные данные, структуру и характер отношений между ними. Сжатие информации получается благодаря тому, что количество факторов или основных компонентов - новых единиц измерения - используется значительно меньше исходных признаков.
МГК популярен, потому что он может эффективно находить оптимальное представление набора данных с меньшим количеством измерений. Он эффективен при фильтрации шума и уменьшении избыточности.
Если у вас есть набор данных с множеством непрерывных переменных, и вы не знаете, как выбрать важные функции для вашей целевой переменной, МГК может подойти для вашего приложения. Аналогичным образом, МГК также популярен для визуализации наборов данных с высокой размерностью (потому что нам, скудным людям, трудно думать более чем в трех измерениях).
В частности, МГК - это неконтролируемый тип выделения признаков, когда исходные переменные объединяются и сводятся к их наиболее важным и описательным компонентам.
Целью МГК является выявление закономерностей в наборе данных, а затем перегонка переменных до их наиболее важных функций, чтобы данные были упрощены без потери важных характеристик. МГК спрашивает, все ли размеры набора данных вызывают радость, а затем дает пользователю возможность устранить те, которые этого не делают.
Список использованной литературы

Бартоломью Д. Стохастическиемоделисоциальных процессов. М.: Финансы и статистика, 1985. 296 с.
D ubrov A.M., Mhitarian V.S., Troshin L.I. Andrey Denisenko, Postgraduate, National Research Nuclear University MEPhI. E-mail: real_lkr@mail.ru Grigory Krylov, Doctor of Physical and Mathematical Sciences, Professor of Financial University under the Goverment of the Russian Federation. Ivan Kornev, Postgraduate, National Research Nuclear University MEPhI. Multidimensional statistic methods, M.: Finance and statistics, 1998.
Dubrov A.M. Data processing with the principal components analysis. M.: Statistics, 1978.-130p.
Andrukowich P.F. a. o. Abstract painting as a specifi c – Generale – Language. A Stat. Appr. To the problem// Metron XXIX. 1971. N 1–2.
Колмогоров A. H. О логарифмически нормальном законе распределения размеров частиц при дроблении. Докл. АН СССР. 1941. Т. 31, № 2. С. 99-101.

 


Нет нужной работы в каталоге?

Сделайте индивидуальный заказ на нашем сервисе. Там эксперты помогают с учебой без посредников Разместите задание – сайт бесплатно отправит его исполнителя, и они предложат цены.

Цены ниже, чем в агентствах и у конкурентов

Вы работаете с экспертами напрямую. Поэтому стоимость работ приятно вас удивит

Бесплатные доработки и консультации

Исполнитель внесет нужные правки в работу по вашему требованию без доплат. Корректировки в максимально короткие сроки

Гарантируем возврат

Если работа вас не устроит – мы вернем 100% суммы заказа

Техподдержка 7 дней в неделю

Наши менеджеры всегда на связи и оперативно решат любую проблему

Строгий отбор экспертов

К работе допускаются только проверенные специалисты с высшим образованием. Проверяем диплом на оценки «хорошо» и «отлично»

1 000 +
Новых работ ежедневно
computer

Требуются доработки?
Они включены в стоимость работы

Работы выполняют эксперты в своём деле. Они ценят свою репутацию, поэтому результат выполненной работы гарантирован

avatar
Математика
История
Экономика
icon
159599
рейтинг
icon
3275
работ сдано
icon
1404
отзывов
avatar
Математика
Физика
История
icon
156450
рейтинг
icon
6068
работ сдано
icon
2737
отзывов
avatar
Химия
Экономика
Биология
icon
105734
рейтинг
icon
2110
работ сдано
icon
1318
отзывов
avatar
Высшая математика
Информатика
Геодезия
icon
62710
рейтинг
icon
1046
работ сдано
icon
598
отзывов
Отзывы студентов о нашей работе
63 457 оценок star star star star star
среднее 4.9 из 5
Филиал государственного бюджетного образовательного учреждения высшего образования Московской област
Спасибо Елизавете за оперативность. Так как это было важно для нас! Замечаний особых не бы...
star star star star star
РУТ
Огромное спасибо за уважительное отношение к заказчикам, быстроту и качество работы
star star star star star
ТГПУ
спасибо за помощь, работа сделана в срок и без замечаний, в полном объеме!
star star star star star

Последние размещённые задания

Ежедневно эксперты готовы работать над 1000 заданиями. Контролируйте процесс написания работы в режиме онлайн

решить 6 практических

Решение задач, Спортивные сооружения

Срок сдачи к 17 дек.

только что

Задание в microsoft project

Лабораторная, Программирование

Срок сдачи к 14 дек.

только что

Решить две задачи №13 и №23

Решение задач, Теоретические основы электротехники

Срок сдачи к 15 дек.

только что

Решить 4задачи

Решение задач, Прикладная механика

Срок сдачи к 31 дек.

только что

Выполнить 2 задачи

Контрольная, Конституционное право

Срок сдачи к 12 дек.

2 минуты назад

6 заданий

Контрольная, Ветеринарная вирусология и иммунология

Срок сдачи к 6 дек.

4 минуты назад

Требуется разобрать ст. 135 Налогового кодекса по составу напогового...

Решение задач, Налоговое право

Срок сдачи к 5 дек.

4 минуты назад

ТЭД, теории кислот и оснований

Решение задач, Химия

Срок сдачи к 5 дек.

5 минут назад

Решить задание в эксель

Решение задач, Эконометрика

Срок сдачи к 6 дек.

5 минут назад

Нужно проходить тесты на сайте

Тест дистанционно, Детская психология

Срок сдачи к 31 янв.

6 минут назад

Решить 7 лабораторных

Решение задач, визуализация данных в экономике

Срок сдачи к 6 дек.

7 минут назад

Вариационные ряды

Другое, Статистика

Срок сдачи к 9 дек.

8 минут назад

Школьный кабинет химии и его роль в химико-образовательном процессе

Курсовая, Методика преподавания химии

Срок сдачи к 26 дек.

8 минут назад

Вариант 9

Решение задач, Теоретическая механика

Срок сдачи к 7 дек.

8 минут назад

9 задач по тех меху ,к 16:20

Решение задач, Техническая механика

Срок сдачи к 5 дек.

9 минут назад
9 минут назад
10 минут назад
planes planes
Закажи индивидуальную работу за 1 минуту!

Размещенные на сайт контрольные, курсовые и иные категории работ (далее — Работы) и их содержимое предназначены исключительно для ознакомления, без целей коммерческого использования. Все права в отношении Работ и их содержимого принадлежат их законным правообладателям. Любое их использование возможно лишь с согласия законных правообладателей. Администрация сайта не несет ответственности за возможный вред и/или убытки, возникшие в связи с использованием Работ и их содержимого.

«Всё сдал!» — безопасный онлайн-сервис с проверенными экспертами

Используя «Свежую базу РГСР», вы принимаете пользовательское соглашение
и политику обработки персональных данных
Сайт работает по московскому времени:

Вход
Регистрация или
Не нашли, что искали?

Заполните форму и узнайте цену на индивидуальную работу!

Файлы (при наличии)

    это быстро и бесплатно
    Введите ваш e-mail
    Файл с работой придёт вам на почту после оплаты заказа
    Успешно!
    Работа доступна для скачивания 🤗.