Участник:Dovlat Demin
Материал из MachineLearning.
| Строка 1: | Строка 1: | ||
| - | + | = Логистическая регрессия = | |
| - | + | '''Логистическая регрессия''' — это метод обучения с учителем для задач классификации, который моделирует вероятность принадлежности объекта к классу как функцию линейной комбинации признаков. Несмотря на название, метод относится к [[линейные модели|линейным моделям]]. | |
| - | + | Модель является частным случаем [[обобщённые линейные модели|обобщённых линейных моделей (GLM)]]. | |
| - | + | == 1. Определения == | |
| - | + | ||
| - | + | ||
| - | + | Пусть задана обучающая выборка: | |
| + | <tex>X^m = \{(x_1,y_1),\dots,(x_m,y_m)\}</tex>, | ||
| - | + | где <tex>x_i \in \mathbb{R}^d</tex> — вектор признаков, а <tex>y_i</tex> — метка класса. | |
| - | < | + | |
| - | а | + | |
| - | < | + | |
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | Линейная модель задаёт скалярный отклик: | |
| + | <tex>z = w^T x + b</tex>, | ||
| - | + | где <tex>w \in \mathbb{R}^d</tex> — веса модели, <tex>b</tex> — смещение. | |
| - | + | Далее этот отклик преобразуется в вероятность. | |
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | === 1.1. Случай двух классов === | |
| - | + | Для бинарной классификации <tex>y \in \{0,1\}</tex> используется сигмоидная функция: | |
| - | < | + | |
| - | + | ||
| - | + | <tex> | |
| + | P(y=1|x) = \sigma(z) = \frac{1}{1 + \exp(-z)} | ||
| + | </tex> | ||
| - | + | <tex> | |
| + | P(y=0|x) = 1 - P(y=1|x) | ||
| + | </tex> | ||
| - | + | Решающее правило: | |
| + | <tex> | ||
| + | \hat{y} = | ||
| + | \begin{cases} | ||
| + | 1, & P(y=1|x) \ge 0.5 \\ | ||
| + | 0, & \text{иначе} | ||
| + | \end{cases} | ||
| + | </tex> | ||
| - | + | == 2. Обоснования == | |
| - | + | === 2.1. С точки зрения минимизации эмпирического риска === | |
| - | + | ||
| - | + | ||
| - | + | Логистическая регрессия получается как решение задачи максимального правдоподобия, что эквивалентно минимизации логистической функции потерь: | |
| - | + | ||
| - | + | <tex> | |
| - | + | L(w) = - \sum_{i=1}^m \left[y_i \log p_i + (1-y_i)\log(1-p_i)\right] | |
| - | + | </tex> | |
| - | + | ||
| - | + | ||
| - | + | где <tex>p_i = P(y_i=1|x_i)</tex>. | |
| - | + | Эта функция также называется бинарной кросс-энтропией. | |
| - | + | === 2.2. С точки зрения байесовской классификации === | |
| - | + | Если предположить, что: | |
| + | * классы разделяются линейной функцией | ||
| + | * распределения принадлежат экспоненциальному семейству | ||
| - | + | то апостериорная вероятность принимает логистическую форму: | |
| - | — | + | |
| - | + | <tex> | |
| - | + | P(y=1|x) = \sigma(w^T x + b) | |
| - | + | </tex> | |
| - | + | ||
| - | + | Таким образом, логистическая регрессия является параметрической моделью байесовского классификатора. | |
| + | |||
| + | == 3. Методы настройки весов == | ||
| + | |||
| + | === 3.1. Градиентный метод первого порядка === | ||
| + | |||
| + | Градиент функции потерь: | ||
| + | |||
| + | <tex> | ||
| + | \nabla L(w) = \sum_{i=1}^m (p_i - y_i)x_i | ||
| + | </tex> | ||
| + | |||
| + | Правило обновления: | ||
| + | |||
| + | <tex> | ||
| + | w := w - \eta \nabla L(w) | ||
| + | </tex> | ||
| + | |||
| + | где <tex>\eta</tex> — шаг обучения. | ||
| + | |||
| + | === 3.2. Метод второго порядка IRLS === | ||
| + | |||
| + | IRLS (Iteratively Reweighted Least Squares) основан на методе Ньютона: | ||
| + | |||
| + | <tex> | ||
| + | w_{t+1} = w_t - H^{-1} \nabla L(w) | ||
| + | </tex> | ||
| + | |||
| + | где <tex>H</tex> — гессиан функции потерь. | ||
| + | |||
| + | Алгоритм интерпретируется как последовательность взвешенных задач наименьших квадратов. | ||
| + | |||
| + | == 4. Геометрическая интерпретация == | ||
| + | |||
| + | Логистическая регрессия задаёт гиперплоскость разделения: | ||
| + | |||
| + | <tex> | ||
| + | w^T x + b = 0 | ||
| + | </tex> | ||
| + | |||
| + | Свойства: | ||
| + | * вероятность зависит от расстояния до гиперплоскости | ||
| + | * при удалении от границы вероятность стремится к 0 или 1 | ||
| + | * поверхность уровня <tex>P(y=1|x)=0.5</tex> совпадает с разделяющей гиперплоскостью | ||
| + | |||
| + | Таким образом модель можно рассматривать как «размытую» линейную классификацию. | ||
| + | |||
| + | == 5. Многоклассовая логистическая регрессия == | ||
| + | |||
| + | Для <tex>K</tex> классов используется обобщение — softmax-регрессия. | ||
| + | |||
| + | Для каждого класса <tex>k</tex> вводится свой вектор параметров: | ||
| + | |||
| + | <tex> | ||
| + | z_k = w_k^T x + b_k | ||
| + | </tex> | ||
| + | |||
| + | Вероятности задаются softmax-функцией: | ||
| + | |||
| + | <tex> | ||
| + | P(y=k|x) = \frac{\exp(z_k)}{\sum_{j=1}^K \exp(z_j)} | ||
| + | </tex> | ||
| + | |||
| + | Функция потерь: | ||
| + | |||
| + | <tex> | ||
| + | L = - \sum_{i=1}^m \sum_{k=1}^K y_{ik} \log p_{ik} | ||
| + | </tex> | ||
| + | |||
| + | где <tex>y_{ik}</tex> — one-hot представление меток. | ||
| + | |||
| + | Свойства: | ||
| + | * <tex>\sum_k P(y=k|x)=1</tex> | ||
| + | * при <tex>K=2</tex> сводится к бинарной логистической регрессии | ||
| + | * является линейной моделью в пространстве признаков | ||
| + | |||
| + | == 6. Связь с другими методами == | ||
| + | |||
| + | Логистическая регрессия связана с: | ||
| + | * [[линейная регрессия]] | ||
| + | * [[перцептрон]] | ||
| + | * [[SVM]] | ||
| + | * [[нейронные сети]] (softmax-слой) | ||
| + | |||
| + | == 7. Интерпретация как вероятностная модель == | ||
| + | |||
| + | Логистическая регрессия является представителем [[обобщённые линейные модели|GLM]] с логит-функцией связи: | ||
| + | |||
| + | <tex> | ||
| + | \log \frac{P(y=1|x)}{1 - P(y=1|x)} = w^T x + b | ||
| + | </tex> | ||
| + | |||
| + | == 8. Литература == | ||
| + | |||
| + | * Bishop C. M. "Pattern Recognition and Machine Learning", 2006 | ||
| + | * Hastie T., Tibshirani R., Friedman J. "The Elements of Statistical Learning", 2009 | ||
| + | * Murphy K. "Machine Learning: A Probabilistic Perspective", 2012 | ||
| + | * McCullagh P., Nelder J. "Generalized Linear Models", 1989 | ||
| + | * Goodfellow I., Bengio Y., Courville A. "Deep Learning", 2016 | ||
| + | |||
| + | == 9. Ссылки == | ||
| + | |||
| + | * https://en.wikipedia.org/wiki/Logistic_regression | ||
| + | * https://en.wikipedia.org/wiki/Softmax_function | ||
Текущая версия
Содержание |
Логистическая регрессия
Логистическая регрессия — это метод обучения с учителем для задач классификации, который моделирует вероятность принадлежности объекта к классу как функцию линейной комбинации признаков. Несмотря на название, метод относится к линейным моделям.
Модель является частным случаем обобщённых линейных моделей (GLM).
1. Определения
Пусть задана обучающая выборка:
,
где — вектор признаков, а
— метка класса.
Линейная модель задаёт скалярный отклик:
,
где — веса модели,
— смещение.
Далее этот отклик преобразуется в вероятность.
1.1. Случай двух классов
Для бинарной классификации используется сигмоидная функция:
Решающее правило:
2. Обоснования
2.1. С точки зрения минимизации эмпирического риска
Логистическая регрессия получается как решение задачи максимального правдоподобия, что эквивалентно минимизации логистической функции потерь:
где .
Эта функция также называется бинарной кросс-энтропией.
2.2. С точки зрения байесовской классификации
Если предположить, что:
- классы разделяются линейной функцией
- распределения принадлежат экспоненциальному семейству
то апостериорная вероятность принимает логистическую форму:
Таким образом, логистическая регрессия является параметрической моделью байесовского классификатора.
3. Методы настройки весов
3.1. Градиентный метод первого порядка
Градиент функции потерь:
Правило обновления:
где — шаг обучения.
3.2. Метод второго порядка IRLS
IRLS (Iteratively Reweighted Least Squares) основан на методе Ньютона:
где — гессиан функции потерь.
Алгоритм интерпретируется как последовательность взвешенных задач наименьших квадратов.
4. Геометрическая интерпретация
Логистическая регрессия задаёт гиперплоскость разделения:
Свойства:
- вероятность зависит от расстояния до гиперплоскости
- при удалении от границы вероятность стремится к 0 или 1
- поверхность уровня
совпадает с разделяющей гиперплоскостью
Таким образом модель можно рассматривать как «размытую» линейную классификацию.
5. Многоклассовая логистическая регрессия
Для классов используется обобщение — softmax-регрессия.
Для каждого класса вводится свой вектор параметров:
Вероятности задаются softmax-функцией:
Функция потерь:
где — one-hot представление меток.
Свойства:
-
- при
сводится к бинарной логистической регрессии
- является линейной моделью в пространстве признаков
6. Связь с другими методами
Логистическая регрессия связана с:
- линейная регрессия
- перцептрон
- SVM
- нейронные сети (softmax-слой)
7. Интерпретация как вероятностная модель
Логистическая регрессия является представителем GLM с логит-функцией связи:
8. Литература
- Bishop C. M. "Pattern Recognition and Machine Learning", 2006
- Hastie T., Tibshirani R., Friedman J. "The Elements of Statistical Learning", 2009
- Murphy K. "Machine Learning: A Probabilistic Perspective", 2012
- McCullagh P., Nelder J. "Generalized Linear Models", 1989
- Goodfellow I., Bengio Y., Courville A. "Deep Learning", 2016

