LASSO-регрессия
Материал из MachineLearning.
(Новая: '''LASSO-регрессия''' (аббр. от англ. ''Least Absolute Shrinkage and Selection Operator'') — метод оценки параметров [[Линейная регр...) |
|||
| Строка 1: | Строка 1: | ||
| + | {{well|Статья написана с использованием LLM '''Gemini 3.1 Pro''' и проверена участником [[Участник:Renal Gazizullin|Renal Gazizullin]] 15:40, 23 июня 2026 (MSD)}} | ||
'''LASSO-регрессия''' (аббр. от англ. ''Least Absolute Shrinkage and Selection Operator'') — метод оценки параметров [[Линейная регрессия|линейной регрессии]], при котором функционал качества дополняется штрафом, пропорциональным <tex>L_1</tex>-норме вектора параметров. Метод предложен [[Тибширани, Роберт|Робертом Тибширани]] в 1996 году<ref>Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society: Series B (Methodological), 58(1), 267-288.</ref> и формально решает задачи [[Регуляризация (математика)|регуляризации]] и автоматического [[Отбор признаков|отбора признаков]]. | '''LASSO-регрессия''' (аббр. от англ. ''Least Absolute Shrinkage and Selection Operator'') — метод оценки параметров [[Линейная регрессия|линейной регрессии]], при котором функционал качества дополняется штрафом, пропорциональным <tex>L_1</tex>-норме вектора параметров. Метод предложен [[Тибширани, Роберт|Робертом Тибширани]] в 1996 году<ref>Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society: Series B (Methodological), 58(1), 267-288.</ref> и формально решает задачи [[Регуляризация (математика)|регуляризации]] и автоматического [[Отбор признаков|отбора признаков]]. | ||
Текущая версия
| | Статья написана с использованием LLM Gemini 3.1 Pro и проверена участником Renal Gazizullin 15:40, 23 июня 2026 (MSD) |
LASSO-регрессия (аббр. от англ. Least Absolute Shrinkage and Selection Operator) — метод оценки параметров линейной регрессии, при котором функционал качества дополняется штрафом, пропорциональным -норме вектора параметров. Метод предложен Робертом Тибширани в 1996 году[1] и формально решает задачи регуляризации и автоматического отбора признаков.
Содержание |
Формальная постановка
Пусть задана обучающая выборка , где
— матрица признаков, а
— вектор ответов. Задача LASSO-регрессии сводится к минимизации эмпирического риска с
-регуляризатором:
где — вектор весов,
— гиперпараметр регуляризации, управляющий степенью разреженности решения.
Свойства метода
Отбор признаков
Ключевая особенность LASSO — способность приравнивать к нулю веса наименее релевантных признаков при достаточно больших значениях . Метод выполняет непрерывное сжатие весов, что делает его предпочтительным инструментом для интерпретации моделей в условиях высокой размерности пространства признаков (
).
Геометрическая интерпретация
В отличие от гребневой регрессии (-регуляризация), где линии уровня штрафа образуют гиперсферу,
-норма формирует гипероктаэдр (ромб в двумерном случае). Точка касания эллипсоида контуров среднеквадратичной ошибки (MSE) с границей гипероктаэдра с высокой вероятностью приходится на его вершины. Это геометрическое свойство гарантирует строго нулевые значения части компонент вектора
[1].
Методы оптимизации
В силу недифференцируемости -нормы в точке 0, классический градиентный спуск неприменим для поиска точного решения.
Координатный спуск
Базовый алгоритм для практического применения (в частности, в библиотеке glmnet). Метод покоординатного спуска итеративно обновляет каждую компоненту веса при фиксированных остальных, используя оператор мягкого порога (soft-thresholding):
Алгоритм LARS
LARS (Least Angle Regression) — метод гомотопии, позволяющий точно построить кусочно-линейный путь решений LASSO для всего спектра значений . Вычислительная сложность алгоритма эквивалентна одному расчету метода наименьших квадратов.
Проксимальные градиентные методы
Для минимизации суммы дифференцируемой и недифференцируемой функций применяется алгоритм ISTA (Iterative Shrinkage-Thresholding Algorithm) и его ускоренный вариант FISTA. Обновление весов задается через проксимальный оператор:
Проксимальный оператор -нормы аналитически сводится к покомпонентному применению мягкого порога.
Стохастическая оптимизация с редукцией дисперсии
В задачах с большим объемом выборки () обычный SGD имеет сублинейную скорость сходимости из-за асимптотической неисчезающей дисперсии стохастического градиента. Современные проксимальные стохастические методы решают эту проблему, достигая линейной сходимости для сильно выпуклых задач[1]:
- Prox-SVRG (Stochastic Variance Reduced Gradient): Периодически вычисляет полный градиент для центрирования стохастических оценок, строго контролируя дисперсию на внутренних итерациях.
- SAGA: Адаптация алгоритма SAG без необходимости вычисления полного градиента на внешнем цикле, математически совместимая с проксимальным шагом для
-штрафа.
- SARAH (StochAstic Recursive grAdient algoritHm): Применяет рекурсивные оценки для формирования смещенного, но обладающего существенно меньшей дисперсией направления поиска.
Байесовская интерпретация
С позиций байесовской статистики, оценка параметров LASSO эквивалентна оценке максимума апостериорной вероятности (MAP) при допущении, что шум модели имеет нормальное распределение, а априорное распределение весов является независимым распределением Лапласа:
где параметр масштаба обратно пропорционален
. Характерный пик в нулю распределения Лапласа формализует априорное ожидание разреженности вектора параметров[1].
Связанные методы
- Elastic Net: Выпуклая линейная комбинация
и
регуляризаторов. Компенсирует нестабильность LASSO при наличии групп сильно коррелирующих между собой признаков, отбирая их совместно.
- Adaptive LASSO: Метод, вводящий индивидуальные веса штрафа для каждой компоненты вектора (штраф пропорционален цене обычного МНК). Обеспечивает свойство оракула: асимптотическую несмещенность и консистентность отбора признаков.
- Групповое LASSO (Group LASSO): Использует блочную норму (смешанную
-норму) для одновременного зануления заранее заданных логических групп признаков.

