Это мой первый блог, и самая интересная тема, которую я нашел, — это анализ главных компонентов (PCA).

Что такое PCA??

Это неконтролируемая проблема машинного обучения. Ее основная цель — уменьшить проклятие размерности.
Это метод уменьшения размерности, который часто используется для уменьшения размеров от высоких к низким, сохраняя при этом сущность данных или Проще говоря, уменьшите количество переменных в наборе данных, выбрав только те переменные, которые дают нам как можно больше информации.

Что такое проклятие размерности?

Проклятие размерности относится к проблемам, возникающим при анализе, классификации или организации данных, имеющих относительно многомерное пространство. Набор данных с большим количеством атрибутов, обычно порядка 100 и более, называется многомерными данными.

Преимущества PCA

  1. Это помогает нам повысить производительность при очень низких затратах с точки зрения точности модели.
  2. Более быстрое выполнение алгоритмов
  3. Визуализация. Как люди, мы не можем визуализировать более высокие измерения. Здесь PCA обеспечивает визуализацию в малых размерах.

ПРИМЕЧАНИЕ. Данные должны быть стандартизированы по столбцам.

У нас есть данные с двумя входными столбцами и одним выходным столбцом. Давайте возьмем пример набора данных с количеством комнат, количеством продуктов поблизости и ценой в качестве выходного столбца для дома.

На приведенном выше рисунке x1 — это количество комнат, а x2 — это количество продуктовых магазинов, на основе которых прогнозируется цена. Как мы знаем, нам не нужно количество продуктовых магазинов, чтобы узнать цену дома. Цена дома может зависеть только от количества комнат.

У нас есть два основных компонента, PC1 и PC2. ПК1, то есть количество комнат, имеет больший разброс данных, что означает больше информации, поэтому мы можем легко игнорировать ПК2 из-за его меньшего разброса, что означает меньше информации.

Разброс данных по одной оси большой, а по второй меньше. Спред – это не что иное, как дисперсия. Чем шире спред, тем больше дисперсия; таким образом, более широкий разброс означает больше информации. Следовательно, мы можем пропустить измерение с меньшей дисперсией, потому что у нас меньше информации для визуализации.

Почему важна дисперсия??

Дисперсия — это статистический метод, который говорит нам о разбросе данных, имеющих больше информации.

Возьмем пример —

Ex1: у нас есть три точки, близкие друг к другу на линии L1, т. е. x1, x2 и x3, и мы можем найти среднее значение как x1+x2+x3/3.
Ex2: у нас снова есть 3 точки, но они ненамного ближе на другой прямой, т. е. на L2, имеющей точки y1, y2 и y3, поэтому мы все еще можем найти среднее значение по той же формуле, что и y1+y2+y3/3.

Мы не можем создать разницу между обеими линиями, используя среднее значение, потому что все, что делает среднее, — это сообщает нам о центральной тенденции или центре данных. Если мы хотим узнать разницу между ними, мы должны использовать дисперсию, которая обеспечивает более широкий разброс, что помогает нам выбирать компоненты с высокой информацией.

Мы выберем единичный вектор с максимальным разбросом дисперсии, используя формулу дисперсии.

Математическая запись

Шаг 1: Найдите средний центр.

Шаг 2: Найдите ковариационную матрицу

Шаг 3: Найдите собственное значение/собственный вектор для ковариационной матрицы

Каждому собственному значению соответствует собственный вектор. Каждая пара собственных векторов перпендикулярна друг другу. Отсортируем собственные значения в порядке убывания. Вектор V1 соответствует максимальному собственному значению с максимальной дисперсией, что подразумевает максимальную информацию в наборе данных. Точно так же дисперсия уменьшается по мере уменьшения собственного значения.

Недостатки PCA

Если данные не подчиняются распределению Гаусса, PCA может не дать наилучших главных компонентов.

На приведенных выше изображениях дисперсия будет одинаковой, а в неясных кластерах мы не сможем найти разницу между двумя точками.

Спасибо за чтение блога. Я надеюсь, что это было полезно для вас, и вам понравилось.