LASSO-регрессия

Материал из MachineLearning.

Версия от 12:38, 23 июня 2026; Renal Gazizullin (Обсуждение | вклад)
(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск
Статья написана с использованием LLM Gemini 3.1 Pro и проверена участником Renal Gazizullin 15:40, 23 июня 2026 (MSD)


LASSO-регрессия (аббр. от англ. Least Absolute Shrinkage and Selection Operator) — метод оценки параметров линейной регрессии, при котором функционал качества дополняется штрафом, пропорциональным L_1-норме вектора параметров. Метод предложен Робертом Тибширани в 1996 году[1] и формально решает задачи регуляризации и автоматического отбора признаков.

Содержание

Формальная постановка

Пусть задана обучающая выборка (X, y), где X \in \mathbb{R}^{n \times d} — матрица признаков, а y \in \mathbb{R}^n — вектор ответов. Задача LASSO-регрессии сводится к минимизации эмпирического риска с L_1-регуляризатором:

\min_{w \in \mathbb{R}^d} \frac{1}{2n} ||Xw - y||_2^2 + \alpha ||w||_1

где w — вектор весов, \alpha \geq 0 — гиперпараметр регуляризации, управляющий степенью разреженности решения.

Свойства метода

Отбор признаков

Ключевая особенность LASSO — способность приравнивать к нулю веса наименее релевантных признаков при достаточно больших значениях \alpha. Метод выполняет непрерывное сжатие весов, что делает его предпочтительным инструментом для интерпретации моделей в условиях высокой размерности пространства признаков (d \gg n).

Геометрическая интерпретация

В отличие от гребневой регрессии (L_2-регуляризация), где линии уровня штрафа образуют гиперсферу, L_1-норма формирует гипероктаэдр (ромб в двумерном случае). Точка касания эллипсоида контуров среднеквадратичной ошибки (MSE) с границей гипероктаэдра с высокой вероятностью приходится на его вершины. Это геометрическое свойство гарантирует строго нулевые значения части компонент вектора w[1].

Методы оптимизации

В силу недифференцируемости L_1-нормы в точке 0, классический градиентный спуск неприменим для поиска точного решения.

Координатный спуск

Базовый алгоритм для практического применения (в частности, в библиотеке glmnet). Метод покоординатного спуска итеративно обновляет каждую компоненту веса при фиксированных остальных, используя оператор мягкого порога (soft-thresholding):

w_j = S_{\alpha \eta}(w_j - \eta \nabla_{w_j} L)

Алгоритм LARS

LARS (Least Angle Regression) — метод гомотопии, позволяющий точно построить кусочно-линейный путь решений LASSO для всего спектра значений \alpha. Вычислительная сложность алгоритма эквивалентна одному расчету метода наименьших квадратов.

Проксимальные градиентные методы

Для минимизации суммы дифференцируемой и недифференцируемой функций применяется алгоритм ISTA (Iterative Shrinkage-Thresholding Algorithm) и его ускоренный вариант FISTA. Обновление весов задается через проксимальный оператор:

w^{(k+1)} = \text{prox}_{\eta \alpha ||\cdot||_1} \left( w^{(k)} - \eta \nabla f(w^{(k)}) \right)

Проксимальный оператор L_1-нормы аналитически сводится к покомпонентному применению мягкого порога.

Стохастическая оптимизация с редукцией дисперсии

В задачах с большим объемом выборки (n \to \infty) обычный SGD имеет сублинейную скорость сходимости из-за асимптотической неисчезающей дисперсии стохастического градиента. Современные проксимальные стохастические методы решают эту проблему, достигая линейной сходимости для сильно выпуклых задач[1]:

  • Prox-SVRG (Stochastic Variance Reduced Gradient): Периодически вычисляет полный градиент для центрирования стохастических оценок, строго контролируя дисперсию на внутренних итерациях.
  • SAGA: Адаптация алгоритма SAG без необходимости вычисления полного градиента на внешнем цикле, математически совместимая с проксимальным шагом для L_1-штрафа.
  • SARAH (StochAstic Recursive grAdient algoritHm): Применяет рекурсивные оценки для формирования смещенного, но обладающего существенно меньшей дисперсией направления поиска.

Байесовская интерпретация

С позиций байесовской статистики, оценка параметров LASSO эквивалентна оценке максимума апостериорной вероятности (MAP) при допущении, что шум модели имеет нормальное распределение, а априорное распределение весов w является независимым распределением Лапласа:

p(w) = \prod_{j=1}^d \frac{1}{2b} \exp\left(-\frac{|w_j|}{b}\right)

где параметр масштаба b обратно пропорционален \alpha. Характерный пик в нулю распределения Лапласа формализует априорное ожидание разреженности вектора параметров[1].

Связанные методы

  • Elastic Net: Выпуклая линейная комбинация L_1 и L_2 регуляризаторов. Компенсирует нестабильность LASSO при наличии групп сильно коррелирующих между собой признаков, отбирая их совместно.
  • Adaptive LASSO: Метод, вводящий индивидуальные веса штрафа для каждой компоненты вектора (штраф пропорционален цене обычного МНК). Обеспечивает свойство оракула: асимптотическую несмещенность и консистентность отбора признаков.
  • Групповое LASSO (Group LASSO): Использует блочную норму (смешанную L_{2,1}-норму) для одновременного зануления заранее заданных логических групп признаков.

Литература