LASSO-регрессия

Материал из MachineLearning.

Версия от 12:38, 23 июня 2026; Renal Gazizullin (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Статья написана с использованием LLM Gemini 3.1 Pro и проверена участником Renal Gazizullin 15:40, 23 июня 2026 (MSD)

LASSO-регрессия (аббр. от англ. Least Absolute Shrinkage and Selection Operator) — метод оценки параметров линейной регрессии, при котором функционал качества дополняется штрафом, пропорциональным $L_1$ -норме вектора параметров. Метод предложен Робертом Тибширани в 1996 году^[1] и формально решает задачи регуляризации и автоматического отбора признаков.

Содержание

1 Формальная постановка
2 Свойства метода
- 2.1 Отбор признаков
- 2.2 Геометрическая интерпретация
3 Методы оптимизации
4 Байесовская интерпретация
5 Связанные методы
6 Литература

Формальная постановка

Пусть задана обучающая выборка $(X, y)$ , где $X \in \mathbb{R}^{n \times d}$ — матрица признаков, а $y \in \mathbb{R}^n$ — вектор ответов. Задача LASSO-регрессии сводится к минимизации эмпирического риска с $L_1$ -регуляризатором:

$\min_{w \in \mathbb{R}^d} \frac{1}{2n} ||Xw - y||_2^2 + \alpha ||w||_1$

где $w$ — вектор весов, $\alpha \geq 0$ — гиперпараметр регуляризации, управляющий степенью разреженности решения.

Свойства метода

Отбор признаков

Ключевая особенность LASSO — способность приравнивать к нулю веса наименее релевантных признаков при достаточно больших значениях $\alpha$ . Метод выполняет непрерывное сжатие весов, что делает его предпочтительным инструментом для интерпретации моделей в условиях высокой размерности пространства признаков ( $d \gg n$ ).

Геометрическая интерпретация

В отличие от гребневой регрессии ( $L_2$ -регуляризация), где линии уровня штрафа образуют гиперсферу, $L_1$ -норма формирует гипероктаэдр (ромб в двумерном случае). Точка касания эллипсоида контуров среднеквадратичной ошибки (MSE) с границей гипероктаэдра с высокой вероятностью приходится на его вершины. Это геометрическое свойство гарантирует строго нулевые значения части компонент вектора $w$ ^[1].

Методы оптимизации

В силу недифференцируемости $L_1$ -нормы в точке 0, классический градиентный спуск неприменим для поиска точного решения.

Координатный спуск

Базовый алгоритм для практического применения (в частности, в библиотеке glmnet). Метод покоординатного спуска итеративно обновляет каждую компоненту веса при фиксированных остальных, используя оператор мягкого порога (soft-thresholding):

$w_j = S_{\alpha \eta}(w_j - \eta \nabla_{w_j} L)$

Алгоритм LARS

LARS (Least Angle Regression) — метод гомотопии, позволяющий точно построить кусочно-линейный путь решений LASSO для всего спектра значений $\alpha$ . Вычислительная сложность алгоритма эквивалентна одному расчету метода наименьших квадратов.

Проксимальные градиентные методы

Для минимизации суммы дифференцируемой и недифференцируемой функций применяется алгоритм ISTA (Iterative Shrinkage-Thresholding Algorithm) и его ускоренный вариант FISTA. Обновление весов задается через проксимальный оператор:

$w^{(k+1)} = \text{prox}_{\eta \alpha ||\cdot||_1} \left( w^{(k)} - \eta \nabla f(w^{(k)}) \right)$

Проксимальный оператор $L_1$ -нормы аналитически сводится к покомпонентному применению мягкого порога.

Стохастическая оптимизация с редукцией дисперсии

В задачах с большим объемом выборки ( $n \to \infty$ ) обычный SGD имеет сублинейную скорость сходимости из-за асимптотической неисчезающей дисперсии стохастического градиента. Современные проксимальные стохастические методы решают эту проблему, достигая линейной сходимости для сильно выпуклых задач^[1]:

Prox-SVRG (Stochastic Variance Reduced Gradient): Периодически вычисляет полный градиент для центрирования стохастических оценок, строго контролируя дисперсию на внутренних итерациях.
SAGA: Адаптация алгоритма SAG без необходимости вычисления полного градиента на внешнем цикле, математически совместимая с проксимальным шагом для $L_1$ -штрафа.
SARAH (StochAstic Recursive grAdient algoritHm): Применяет рекурсивные оценки для формирования смещенного, но обладающего существенно меньшей дисперсией направления поиска.

Байесовская интерпретация

С позиций байесовской статистики, оценка параметров LASSO эквивалентна оценке максимума апостериорной вероятности (MAP) при допущении, что шум модели имеет нормальное распределение, а априорное распределение весов $w$ является независимым распределением Лапласа:

$p(w) = \prod_{j=1}^d \frac{1}{2b} \exp\left(-\frac{|w_j|}{b}\right)$

где параметр масштаба $b$ обратно пропорционален $\alpha$ . Характерный пик в нулю распределения Лапласа формализует априорное ожидание разреженности вектора параметров^[1].

Связанные методы

Elastic Net: Выпуклая линейная комбинация $L_1$ и $L_2$ регуляризаторов. Компенсирует нестабильность LASSO при наличии групп сильно коррелирующих между собой признаков, отбирая их совместно.
Adaptive LASSO: Метод, вводящий индивидуальные веса штрафа для каждой компоненты вектора (штраф пропорционален цене обычного МНК). Обеспечивает свойство оракула: асимптотическую несмещенность и консистентность отбора признаков.
Групповое LASSO (Group LASSO): Использует блочную норму (смешанную $L_{2,1}$ -норму) для одновременного зануления заранее заданных логических групп признаков.

Литература

Источник — «http://83.149.227.45/wiki/index.php?title=LASSO-%D1%80%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F»

Категории: Регрессионный анализ | Энциклопедия анализа данных | Методы оптимизации | Регуляризация