LASSO-регрессия
Материал из MachineLearning.
| | Статья написана с использованием LLM Gemini 3.1 Pro и проверена участником Renal Gazizullin 15:40, 23 июня 2026 (MSD) |
LASSO-регрессия (аббр. от англ. Least Absolute Shrinkage and Selection Operator) — метод оценки параметров линейной регрессии, при котором функционал качества дополняется штрафом, пропорциональным -норме вектора параметров. Метод предложен Робертом Тибширани в 1996 году[1] и формально решает задачи регуляризации и автоматического отбора признаков.
Содержание |
Формальная постановка
Пусть задана обучающая выборка , где
— матрица признаков, а
— вектор ответов. Задача LASSO-регрессии сводится к минимизации эмпирического риска с
-регуляризатором:
где — вектор весов,
— гиперпараметр регуляризации, управляющий степенью разреженности решения.
Свойства метода
Отбор признаков
Ключевая особенность LASSO — способность приравнивать к нулю веса наименее релевантных признаков при достаточно больших значениях . Метод выполняет непрерывное сжатие весов, что делает его предпочтительным инструментом для интерпретации моделей в условиях высокой размерности пространства признаков (
).
Геометрическая интерпретация
В отличие от гребневой регрессии (-регуляризация), где линии уровня штрафа образуют гиперсферу,
-норма формирует гипероктаэдр (ромб в двумерном случае). Точка касания эллипсоида контуров среднеквадратичной ошибки (MSE) с границей гипероктаэдра с высокой вероятностью приходится на его вершины. Это геометрическое свойство гарантирует строго нулевые значения части компонент вектора
[1].
Методы оптимизации
В силу недифференцируемости -нормы в точке 0, классический градиентный спуск неприменим для поиска точного решения.
Координатный спуск
Базовый алгоритм для практического применения (в частности, в библиотеке glmnet). Метод покоординатного спуска итеративно обновляет каждую компоненту веса при фиксированных остальных, используя оператор мягкого порога (soft-thresholding):
Алгоритм LARS
LARS (Least Angle Regression) — метод гомотопии, позволяющий точно построить кусочно-линейный путь решений LASSO для всего спектра значений . Вычислительная сложность алгоритма эквивалентна одному расчету метода наименьших квадратов.
Проксимальные градиентные методы
Для минимизации суммы дифференцируемой и недифференцируемой функций применяется алгоритм ISTA (Iterative Shrinkage-Thresholding Algorithm) и его ускоренный вариант FISTA. Обновление весов задается через проксимальный оператор:
Проксимальный оператор -нормы аналитически сводится к покомпонентному применению мягкого порога.
Стохастическая оптимизация с редукцией дисперсии
В задачах с большим объемом выборки () обычный SGD имеет сублинейную скорость сходимости из-за асимптотической неисчезающей дисперсии стохастического градиента. Современные проксимальные стохастические методы решают эту проблему, достигая линейной сходимости для сильно выпуклых задач[1]:
- Prox-SVRG (Stochastic Variance Reduced Gradient): Периодически вычисляет полный градиент для центрирования стохастических оценок, строго контролируя дисперсию на внутренних итерациях.
- SAGA: Адаптация алгоритма SAG без необходимости вычисления полного градиента на внешнем цикле, математически совместимая с проксимальным шагом для
-штрафа.
- SARAH (StochAstic Recursive grAdient algoritHm): Применяет рекурсивные оценки для формирования смещенного, но обладающего существенно меньшей дисперсией направления поиска.
Байесовская интерпретация
С позиций байесовской статистики, оценка параметров LASSO эквивалентна оценке максимума апостериорной вероятности (MAP) при допущении, что шум модели имеет нормальное распределение, а априорное распределение весов является независимым распределением Лапласа:
где параметр масштаба обратно пропорционален
. Характерный пик в нулю распределения Лапласа формализует априорное ожидание разреженности вектора параметров[1].
Связанные методы
- Elastic Net: Выпуклая линейная комбинация
и
регуляризаторов. Компенсирует нестабильность LASSO при наличии групп сильно коррелирующих между собой признаков, отбирая их совместно.
- Adaptive LASSO: Метод, вводящий индивидуальные веса штрафа для каждой компоненты вектора (штраф пропорционален цене обычного МНК). Обеспечивает свойство оракула: асимптотическую несмещенность и консистентность отбора признаков.
- Групповое LASSO (Group LASSO): Использует блочную норму (смешанную
-норму) для одновременного зануления заранее заданных логических групп признаков.

