Участник:Dovlat Demin

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

Логистическая регрессия

Логистическая регрессия — это метод обучения с учителем для задач классификации, который моделирует вероятность принадлежности объекта к классу как функцию линейной комбинации признаков. Несмотря на название, метод относится к линейным моделям.

Модель является частным случаем обобщённых линейных моделей (GLM).

1. Определения

Пусть задана обучающая выборка: X^m = \{(x_1,y_1),\dots,(x_m,y_m)\},

где x_i \in \mathbb{R}^d — вектор признаков, а y_i — метка класса.

Линейная модель задаёт скалярный отклик: z = w^T x + b,

где w \in \mathbb{R}^d — веса модели, b — смещение.

Далее этот отклик преобразуется в вероятность.

1.1. Случай двух классов

Для бинарной классификации y \in \{0,1\} используется сигмоидная функция:


P(y=1|x) = \sigma(z) = \frac{1}{1 + \exp(-z)}


P(y=0|x) = 1 - P(y=1|x)

Решающее правило: 
\hat{y} =
\begin{cases}
1, & P(y=1|x) \ge 0.5 \\
0, & \text{иначе}
\end{cases}

2. Обоснования

2.1. С точки зрения минимизации эмпирического риска

Логистическая регрессия получается как решение задачи максимального правдоподобия, что эквивалентно минимизации логистической функции потерь:


L(w) = - \sum_{i=1}^m \left[y_i \log p_i + (1-y_i)\log(1-p_i)\right]

где p_i = P(y_i=1|x_i).

Эта функция также называется бинарной кросс-энтропией.

2.2. С точки зрения байесовской классификации

Если предположить, что:

  • классы разделяются линейной функцией
  • распределения принадлежат экспоненциальному семейству

то апостериорная вероятность принимает логистическую форму:


P(y=1|x) = \sigma(w^T x + b)

Таким образом, логистическая регрессия является параметрической моделью байесовского классификатора.

3. Методы настройки весов

3.1. Градиентный метод первого порядка

Градиент функции потерь:


\nabla L(w) = \sum_{i=1}^m (p_i - y_i)x_i

Правило обновления:


w := w - \eta \nabla L(w)

где \eta — шаг обучения.

3.2. Метод второго порядка IRLS

IRLS (Iteratively Reweighted Least Squares) основан на методе Ньютона:


w_{t+1} = w_t - H^{-1} \nabla L(w)

где H — гессиан функции потерь.

Алгоритм интерпретируется как последовательность взвешенных задач наименьших квадратов.

4. Геометрическая интерпретация

Логистическая регрессия задаёт гиперплоскость разделения:


w^T x + b = 0

Свойства:

  • вероятность зависит от расстояния до гиперплоскости
  • при удалении от границы вероятность стремится к 0 или 1
  • поверхность уровня P(y=1|x)=0.5 совпадает с разделяющей гиперплоскостью

Таким образом модель можно рассматривать как «размытую» линейную классификацию.

5. Многоклассовая логистическая регрессия

Для K классов используется обобщение — softmax-регрессия.

Для каждого класса k вводится свой вектор параметров:


z_k = w_k^T x + b_k

Вероятности задаются softmax-функцией:


P(y=k|x) = \frac{\exp(z_k)}{\sum_{j=1}^K \exp(z_j)}

Функция потерь:


L = - \sum_{i=1}^m \sum_{k=1}^K y_{ik} \log p_{ik}

где y_{ik} — one-hot представление меток.

Свойства:

  • \sum_k P(y=k|x)=1
  • при K=2 сводится к бинарной логистической регрессии
  • является линейной моделью в пространстве признаков

6. Связь с другими методами

Логистическая регрессия связана с:

7. Интерпретация как вероятностная модель

Логистическая регрессия является представителем GLM с логит-функцией связи:


\log \frac{P(y=1|x)}{1 - P(y=1|x)} = w^T x + b

8. Литература

  • Bishop C. M. "Pattern Recognition and Machine Learning", 2006
  • Hastie T., Tibshirani R., Friedman J. "The Elements of Statistical Learning", 2009
  • Murphy K. "Machine Learning: A Probabilistic Perspective", 2012
  • McCullagh P., Nelder J. "Generalized Linear Models", 1989
  • Goodfellow I., Bengio Y., Courville A. "Deep Learning", 2016

9. Ссылки

Личные инструменты