Участник:Dovlat Demin

Материал из MachineLearning.

Содержание

1 Логистическая регрессия

Логистическая регрессия

Логистическая регрессия — это метод обучения с учителем для задач классификации, который моделирует вероятность принадлежности объекта к классу как функцию линейной комбинации признаков. Несмотря на название, метод относится к линейным моделям.

Модель является частным случаем обобщённых линейных моделей (GLM).

1. Определения

Пусть задана обучающая выборка: $X^m = \{(x_1,y_1),\dots,(x_m,y_m)\}$ ,

где $x_i \in \mathbb{R}^d$ — вектор признаков, а $y_i$ — метка класса.

Линейная модель задаёт скалярный отклик: $z = w^T x + b$ ,

где $w \in \mathbb{R}^d$ — веса модели, $b$ — смещение.

Далее этот отклик преобразуется в вероятность.

1.1. Случай двух классов

Для бинарной классификации $y \in \{0,1\}$ используется сигмоидная функция:

$P(y=1|x) = \sigma(z) = \frac{1}{1 + \exp(-z)}$

$P(y=0|x) = 1 - P(y=1|x)$

Решающее правило: $\hat{y} = \begin{cases} 1, & P(y=1|x) \ge 0.5 \\ 0, & \text{иначе} \end{cases}$

2. Обоснования

2.1. С точки зрения минимизации эмпирического риска

Логистическая регрессия получается как решение задачи максимального правдоподобия, что эквивалентно минимизации логистической функции потерь:

$L(w) = - \sum_{i=1}^m \left[y_i \log p_i + (1-y_i)\log(1-p_i)\right]$

где $p_i = P(y_i=1|x_i)$ .

Эта функция также называется бинарной кросс-энтропией.

2.2. С точки зрения байесовской классификации

Если предположить, что:

классы разделяются линейной функцией
распределения принадлежат экспоненциальному семейству

то апостериорная вероятность принимает логистическую форму:

$P(y=1|x) = \sigma(w^T x + b)$

Таким образом, логистическая регрессия является параметрической моделью байесовского классификатора.

3. Методы настройки весов

3.1. Градиентный метод первого порядка

Градиент функции потерь:

$\nabla L(w) = \sum_{i=1}^m (p_i - y_i)x_i$

Правило обновления:

$w := w - \eta \nabla L(w)$

где $\eta$ — шаг обучения.

3.2. Метод второго порядка IRLS

IRLS (Iteratively Reweighted Least Squares) основан на методе Ньютона:

$w_{t+1} = w_t - H^{-1} \nabla L(w)$

где $H$ — гессиан функции потерь.

Алгоритм интерпретируется как последовательность взвешенных задач наименьших квадратов.

4. Геометрическая интерпретация

Логистическая регрессия задаёт гиперплоскость разделения:

$w^T x + b = 0$

Свойства:

вероятность зависит от расстояния до гиперплоскости
при удалении от границы вероятность стремится к 0 или 1
поверхность уровня $P(y=1|x)=0.5$ совпадает с разделяющей гиперплоскостью

Таким образом модель можно рассматривать как «размытую» линейную классификацию.

5. Многоклассовая логистическая регрессия

Для $K$ классов используется обобщение — softmax-регрессия.

Для каждого класса $k$ вводится свой вектор параметров:

$z_k = w_k^T x + b_k$

Вероятности задаются softmax-функцией:

$P(y=k|x) = \frac{\exp(z_k)}{\sum_{j=1}^K \exp(z_j)}$

Функция потерь:

$L = - \sum_{i=1}^m \sum_{k=1}^K y_{ik} \log p_{ik}$

где $y_{ik}$ — one-hot представление меток.

Свойства:

$\sum_k P(y=k|x)=1$
при $K=2$ сводится к бинарной логистической регрессии
является линейной моделью в пространстве признаков

6. Связь с другими методами

Логистическая регрессия связана с:

7. Интерпретация как вероятностная модель

Логистическая регрессия является представителем GLM с логит-функцией связи:

$\log \frac{P(y=1|x)}{1 - P(y=1|x)} = w^T x + b$

8. Литература

Bishop C. M. "Pattern Recognition and Machine Learning", 2006
Hastie T., Tibshirani R., Friedman J. "The Elements of Statistical Learning", 2009
Murphy K. "Machine Learning: A Probabilistic Perspective", 2012
McCullagh P., Nelder J. "Generalized Linear Models", 1989
Goodfellow I., Bengio Y., Courville A. "Deep Learning", 2016

9. Ссылки

Источник — «http://83.149.227.45/wiki/index.php?title=%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA:Dovlat_Demin»