Логистическая регрессия
Материал из MachineLearning.
(→Случай двух классов) |
|||
| Строка 1: | Строка 1: | ||
| - | + | = Логистическая регрессия = | |
| - | + | ||
| - | + | Логистическая регрессия — это метод статистического обучения, используемый для решения задач классификации, в первую очередь бинарной. Метод относится к классу обобщённых линейных моделей (GLM) и основан на предположении, что логарифм отношения шансов (log-odds) является линейной функцией признаков. | |
| - | + | Логистическая регрессия широко применяется в задачах анализа данных, скоринга, медицины, обработки текста и других областях машинного обучения. | |
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | == 1. Определения == | |
| - | + | ||
| - | + | Пусть задана обучающая выборка | |
| - | + | <tex>X^m = \{(x_1,y_1),\dots,(x_m,y_m)\}</tex>, где | |
| - | + | <tex>x_i \in \mathbb{R}^d</tex> — вектор признаков, | |
| - | + | <tex>y_i \in \{0,1\}</tex> — метка класса. | |
| - | где | + | |
| - | <tex> | + | |
| - | + | ||
| - | + | ||
| - | <tex>\ | + | |
| - | + | ||
| - | + | Логистическая регрессия моделирует вероятность класса 1 как: | |
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | : | + | |
| - | + | <tex> | |
| - | + | P(y=1|x,w) = \sigma(w^T x) = \frac{1}{1 + \exp(-w^T x)} | |
| - | + | </tex> | |
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | где <tex>\sigma(\cdot)</tex> — сигмоидная функция. | |
| - | + | Функция правдоподобия выборки: | |
| - | + | ||
| - | : | + | |
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | == | + | <tex> |
| - | + | L(w) = \prod_{i=1}^m P(y_i|x_i,w) | |
| + | </tex> | ||
| - | + | Логарифмическая функция потерь (log-loss): | |
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | <tex> | |
| - | + | Q(w) = - \sum_{i=1}^m \left[y_i \log p_i + (1-y_i)\log(1-p_i)\right] | |
| - | + | </tex> | |
| - | + | ||
| - | + | где <tex>p_i = P(y=1|x_i,w)</tex>. | |
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | == | + | === 1.1 Случай двух классов === |
| - | + | В бинарной классификации модель можно переписать через логарифм отношения шансов: | |
| - | + | <tex> | |
| - | + | \log \frac{P(y=1|x)}{P(y=0|x)} = w^T x | |
| - | + | </tex> | |
| - | + | Это ключевая интерпретация логистической регрессии как линейной модели в пространстве лог-оддсов. | |
| - | + | ||
| - | + | ||
| - | + | ||
| - | + | ||
| - | == | + | == 2. Обоснования == |
| - | + | ||
| - | + | ||
| - | + | ||
| - | == | + | === 2.1 С точки зрения минимизации эмпирического риска === |
| - | + | ||
| - | + | ||
| - | {{ | + | Логистическая регрессия возникает как решение задачи минимизации эмпирического риска: |
| - | [ | + | |
| - | [[ | + | <tex> |
| - | [[ | + | \min_w \sum_{i=1}^m \ell(y_i, w^T x_i) |
| - | [[ | + | </tex> |
| + | |||
| + | где логистическая функция потерь: | ||
| + | |||
| + | <tex> | ||
| + | \ell(y, z) = \log(1 + \exp(-y z)), \quad y \in \{-1,1\} | ||
| + | </tex> | ||
| + | |||
| + | Эта функция является гладкой верхней оценкой 0–1 потерь. | ||
| + | |||
| + | === 2.2 С точки зрения байесовской классификации === | ||
| + | |||
| + | В байесовском подходе предполагается, что классы порождаются вероятностной моделью: | ||
| + | |||
| + | <tex> | ||
| + | P(y|x) = \text{Bernoulli}(\sigma(w^T x)) | ||
| + | </tex> | ||
| + | |||
| + | Оценка параметров получается методом максимального правдоподобия. | ||
| + | |||
| + | Регуляризация соответствует априорному распределению на веса (например, гауссовскому), что приводит к MAP-оценке. | ||
| + | |||
| + | (см. также обобщённые линейные модели в учебных материалах Воронцова) :contentReference[oaicite:0]{index=0} | ||
| + | |||
| + | == 3. Методы настройки весов == | ||
| + | |||
| + | === 3.1 Градиентный метод первого порядка === | ||
| + | |||
| + | Градиент функции потерь: | ||
| + | |||
| + | <tex> | ||
| + | \nabla Q(w) = \sum_{i=1}^m (p_i - y_i)x_i | ||
| + | </tex> | ||
| + | |||
| + | Обновление параметров: | ||
| + | |||
| + | <tex> | ||
| + | w^{t+1} = w^t - \eta \nabla Q(w^t) | ||
| + | </tex> | ||
| + | |||
| + | Используется стохастический градиентный спуск (SGD) для больших выборок. | ||
| + | |||
| + | === 3.2 Метод второго порядка IRLS === | ||
| + | |||
| + | Метод IRLS (Iteratively Reweighted Least Squares) основан на приближении Ньютона: | ||
| + | |||
| + | <tex> | ||
| + | w^{t+1} = w^t - H^{-1} \nabla Q(w) | ||
| + | </tex> | ||
| + | |||
| + | где H — гессиан функции потерь. | ||
| + | |||
| + | IRLS интерпретируется как последовательность взвешенных задач наименьших квадратов. | ||
| + | |||
| + | == 4. Геометрическая интерпретация == | ||
| + | |||
| + | Логистическая регрессия строит **линейную разделяющую гиперплоскость**: | ||
| + | |||
| + | <tex> | ||
| + | w^T x = 0 | ||
| + | </tex> | ||
| + | |||
| + | - расстояние до гиперплоскости определяет уверенность классификации | ||
| + | - знак <tex>w^T x</tex> определяет класс | ||
| + | - модуль значения связан с вероятностью | ||
| + | |||
| + | Вероятность: | ||
| + | |||
| + | <tex> | ||
| + | P(y=1|x) \approx 1 \text{ при } w^T x \gg 0,\quad | ||
| + | P(y=1|x) \approx 0 \text{ при } w^T x \ll 0 | ||
| + | </tex> | ||
| + | |||
| + | Таким образом модель является **линейным классификатором с вероятностной интерпретацией**. | ||
| + | == 5. Многоклассовая логистическая регрессия (добавлено) == | ||
| + | |||
| + | Для <tex>K</tex> классов используется softmax-модель: | ||
| + | |||
| + | <tex> | ||
| + | P(y=k|x) = \frac{\exp(w_k^T x)}{\sum_{j=1}^K \exp(w_j^T x)} | ||
| + | </tex> | ||
| + | |||
| + | Функция потерь: | ||
| + | |||
| + | <tex> | ||
| + | Q(W) = - \sum_{i=1}^m \log P(y_i|x_i) | ||
| + | </tex> | ||
| + | |||
| + | Многоклассовая логистическая регрессия эквивалентна: | ||
| + | - обобщению бинарной модели | ||
| + | - частному случаю multinomial GLM | ||
| + | == 6. Связь с другими методами обучения == | ||
| + | |||
| + | Логистическая регрессия связана с: | ||
| + | |||
| + | * [[Линейные модели]] | ||
| + | * [[Метод максимального правдоподобия]] | ||
| + | * [[Обобщённые линейные модели]] | ||
| + | * [[SVM]] (через различие функций потерь: log-loss vs hinge loss) | ||
| + | * [[Нейронные сети]] (один слой softmax = логистическая регрессия) | ||
| + | |||
| + | Также существует связь с регуляризацией: | ||
| + | - L2-регуляризация ↔ гауссовский приор | ||
| + | - L1-регуляризация ↔ разреженность (аналог Lasso) | ||
| + | == 7. Литература == | ||
| + | |||
| + | 1. Hastie T., Tibshirani R., Friedman J. — The Elements of Statistical Learning, 2009 | ||
| + | 2. Bishop C. — Pattern Recognition and Machine Learning, 2006 | ||
| + | 3. Murphy K. — Machine Learning: A Probabilistic Perspective, 2012 | ||
| + | 4. McCullagh P., Nelder J. — Generalized Linear Models, 1989 | ||
| + | 5. Воронцов К.В. — Курс лекций по машинному обучению :contentReference[oaicite:1]{index=1} | ||
| + | == 8. Ссылки == | ||
| + | |||
| + | * https://www.machinelearning.ru/wiki/ — образовательный портал MachineLearning.ru | ||
| + | * https://en.wikipedia.org/wiki/Logistic_regression — обзор метода | ||
| + | * https://www.cs.cmu.edu/~tom/mlbook.html — Mitchell, Machine Learning | ||
Версия 15:12, 1 июля 2026
Содержание |
Логистическая регрессия
Логистическая регрессия — это метод статистического обучения, используемый для решения задач классификации, в первую очередь бинарной. Метод относится к классу обобщённых линейных моделей (GLM) и основан на предположении, что логарифм отношения шансов (log-odds) является линейной функцией признаков.
Логистическая регрессия широко применяется в задачах анализа данных, скоринга, медицины, обработки текста и других областях машинного обучения.
1. Определения
Пусть задана обучающая выборка
, где
— вектор признаков,
— метка класса.
Логистическая регрессия моделирует вероятность класса 1 как:
где — сигмоидная функция.
Функция правдоподобия выборки:
Логарифмическая функция потерь (log-loss):
где .
1.1 Случай двух классов
В бинарной классификации модель можно переписать через логарифм отношения шансов:
Это ключевая интерпретация логистической регрессии как линейной модели в пространстве лог-оддсов.
2. Обоснования
2.1 С точки зрения минимизации эмпирического риска
Логистическая регрессия возникает как решение задачи минимизации эмпирического риска:
где логистическая функция потерь:
Эта функция является гладкой верхней оценкой 0–1 потерь.
2.2 С точки зрения байесовской классификации
В байесовском подходе предполагается, что классы порождаются вероятностной моделью:
Оценка параметров получается методом максимального правдоподобия.
Регуляризация соответствует априорному распределению на веса (например, гауссовскому), что приводит к MAP-оценке.
(см. также обобщённые линейные модели в учебных материалах Воронцова) :contentReference[oaicite:0]{index=0}
3. Методы настройки весов
3.1 Градиентный метод первого порядка
Градиент функции потерь:
Обновление параметров:
Используется стохастический градиентный спуск (SGD) для больших выборок.
3.2 Метод второго порядка IRLS
Метод IRLS (Iteratively Reweighted Least Squares) основан на приближении Ньютона:
где H — гессиан функции потерь.
IRLS интерпретируется как последовательность взвешенных задач наименьших квадратов.
4. Геометрическая интерпретация
Логистическая регрессия строит **линейную разделяющую гиперплоскость**:
- расстояние до гиперплоскости определяет уверенность классификации
- знак определяет класс
- модуль значения связан с вероятностью
Вероятность:
Таким образом модель является **линейным классификатором с вероятностной интерпретацией**.
5. Многоклассовая логистическая регрессия (добавлено)
Для классов используется softmax-модель:
Функция потерь:
Многоклассовая логистическая регрессия эквивалентна: - обобщению бинарной модели - частному случаю multinomial GLM
6. Связь с другими методами обучения
Логистическая регрессия связана с:
- Линейные модели
- Метод максимального правдоподобия
- Обобщённые линейные модели
- SVM (через различие функций потерь: log-loss vs hinge loss)
- Нейронные сети (один слой softmax = логистическая регрессия)
Также существует связь с регуляризацией: - L2-регуляризация ↔ гауссовский приор - L1-регуляризация ↔ разреженность (аналог Lasso)
7. Литература
1. Hastie T., Tibshirani R., Friedman J. — The Elements of Statistical Learning, 2009 2. Bishop C. — Pattern Recognition and Machine Learning, 2006 3. Murphy K. — Machine Learning: A Probabilistic Perspective, 2012 4. McCullagh P., Nelder J. — Generalized Linear Models, 1989 5. Воронцов К.В. — Курс лекций по машинному обучению :contentReference[oaicite:1]{index=1}
8. Ссылки
- https://www.machinelearning.ru/wiki/ — образовательный портал MachineLearning.ru
- https://en.wikipedia.org/wiki/Logistic_regression — обзор метода
- https://www.cs.cmu.edu/~tom/mlbook.html — Mitchell, Machine Learning

