Многослойная нейронная сеть
Материал из MachineLearning.
(Новая: {{well|Статья написана с использованием LLM '''ChatGPT 5.5''' и проверена участником Liliia Davletova}} = Многослойная н...) |
(→Многослойная нейронная сеть) |
||
| Строка 2: | Строка 2: | ||
= Многослойная нейронная сеть = | = Многослойная нейронная сеть = | ||
| - | '''Многослойная нейронная сеть''' ('''МНС''' | + | '''Многослойная нейронная сеть''' ('''МНС''', '''MLN''', также часто ''многослойный перцептрон'', '''MLP''') — класс [[искусственная нейронная сеть|искусственных нейронных сетей]], состоящих из нескольких последовательно соединённых слоёв [[искусственный нейрон|искусственных нейронов]], способных аппроксимировать сложные нелинейные зависимости между входными и выходными данными. Современные многослойные нейронные сети являются фундаментом [[глубокое обучение|глубокого обучения]] и лежат в основе большинства достижений в областях [[компьютерное зрение|компьютерного зрения]], [[обработка естественного языка|обработки естественного языка]], [[распознавание речи]], [[машинный перевод|машинного перевода]], [[генеративный искусственный интеллект|генеративного искусственного интеллекта]] и других направлений [[машинное обучение|машинного обучения]]. |
== История == | == История == | ||
Версия 13:18, 30 июня 2026
| | Статья написана с использованием LLM ChatGPT 5.5 и проверена участником Liliia Davletova |
Содержание
|
Многослойная нейронная сеть
Многослойная нейронная сеть (МНС, MLN, также часто многослойный перцептрон, MLP) — класс искусственных нейронных сетей, состоящих из нескольких последовательно соединённых слоёв искусственных нейронов, способных аппроксимировать сложные нелинейные зависимости между входными и выходными данными. Современные многослойные нейронные сети являются фундаментом глубокого обучения и лежат в основе большинства достижений в областях компьютерного зрения, обработки естественного языка, распознавание речи, машинного перевода, генеративного искусственного интеллекта и других направлений машинного обучения.
История
Первые математические модели искусственных нейронов были предложены Уоррен Маккаллоком и Уолтером Питтсом в 1943 году. В 1958 году Фрэнк Розенблатт разработал перцептрон, который мог обучаться классификации линейно разделимых данных.
В 1969 году публикация книги Perceptrons Марвина Минского и Сеймура Пейперта показала фундаментальные ограничения однослойных сетей, что привело к временному снижению интереса к исследованиям нейронных сетей.
Переломным моментом стала публикация в 1986 году алгоритма обратного распространения ошибки, позволившего эффективно обучать сети с несколькими скрытыми слоями. Позднее развитие вычислительной техники, появление больших наборов данных и использование графических процессоров сделали возможным обучение очень глубоких моделей.
С начала 2010-х годов многослойные сети стали основой современных методов глубокого обучения.
Архитектура
Типичная многослойная нейронная сеть состоит из следующих компонентов:
- входной слой, принимающий признаки объекта;
- один или несколько скрытых слоёв;
- выходной слой, формирующий прогноз.
Каждый нейрон вычисляет
- <math>z = \sum_{i=1}^{n} w_i x_i + b,</math>
где:
- <math>x_i</math> — входные значения;
- <math>w_i</math> — веса;
- <math>b</math> — смещение (bias).
После вычисления линейной комбинации применяется функция активации, например:
Наличие нелинейной функции активации позволяет сети моделировать сложные нелинейные зависимости. Без неё вся последовательность линейных преобразований сводилась бы к одному линейному преобразованию.
Математическая модель
Пусть сеть состоит из <math>L</math> слоёв.
Для слоя <math>l</math>
- <math>\mathbf{h}^{(l)} =
\sigma\left( W^{(l)} \mathbf{h}^{(l-1)} + \mathbf{b}^{(l)} \right),</math>
где
- <math>W^{(l)}</math> — матрица весов;
- <math>\mathbf{b}^{(l)}</math> — вектор смещений;
- <math>\sigma</math> — функция активации.
Вся сеть представляет собой композицию функций
- <math>
f(x)=f_L\circ f_{L-1}\circ\dots\circ f_1(x). </math>
Именно композиция большого числа нелинейных преобразований обеспечивает высокую выразительную способность модели.
Обучение
Обучение многослойной нейронной сети заключается в подборе весов, минимизирующих функцию потерь.
Наиболее распространённая схема включает:
- прямое распространение сигнала;
- вычисление ошибки;
- применение алгоритма обратного распространения ошибки;
- обновление параметров с использованием градиентного спуска или его модификаций.
На практике широко используются оптимизаторы:
Регуляризация
Для предотвращения переобучения применяются:
- Dropout;
- L2-регуляризация;
- Batch Normalization;
- Layer Normalization;
- ранняя остановка;
- увеличение объёма обучающих данных (Data augmentation).
Теоретические свойства
Универсальная аппроксимация
Одним из фундаментальных результатов теории нейронных сетей является теорема об универсальной аппроксимации, согласно которой многослойная сеть с одним скрытым слоем достаточной ширины способна аппроксимировать любую непрерывную функцию на компактном множестве с произвольной точностью.
Однако на практике глубокие сети часто оказываются значительно эффективнее широких однослойных моделей, поскольку используют иерархическое представление признаков.
Представление признаков
Глубокие сети автоматически формируют признаки различного уровня абстракции.
Например, при обработке изображений:
- первые слои выделяют границы;
- средние — текстуры;
- глубокие — части объектов;
- последние — целые объекты.
Подобная иерархия признаков является одной из главных причин эффективности глубокого обучения.
Основные разновидности
Многослойная архитектура используется практически во всех современных нейронных моделях.
К наиболее распространённым относятся:
- многослойный перцептрон;
- свёрточная нейронная сеть;
- рекуррентная нейронная сеть;
- долгая краткосрочная память;
- GRU;
- трансформер;
- автоэнкодер;
- вариационный автоэнкодер;
- генеративно-состязательная сеть;
- диффузионная модель.
Области применения
Многослойные нейронные сети используются для решения широкого круга задач:
- классификация изображений;
- обнаружение объектов;
- сегментация изображений;
- распознавание речи;
- синтез речи;
- обработка естественного языка;
- машинный перевод;
- поиск информации;
- рекомендательные системы;
- прогнозирование временных рядов;
- медицинская диагностика;
- биоинформатика;
- робототехника;
- автономное управление транспортом;
- генерация текста;
- генерация изображений;
- генерация программного кода.
Преимущества
К достоинствам многослойных нейронных сетей относятся:
- высокая выразительная способность;
- автоматическое извлечение признаков;
- возможность обучения на больших объёмах данных;
- универсальность применения;
- масштабируемость.
Недостатки
Основными ограничениями являются:
- высокая вычислительная сложность;
- значительные требования к объёму данных;
- сложность интерпретации результатов;
- чувствительность к выбору гиперпараметров;
- большое энергопотребление при обучении крупных моделей.
Современные исследования
По состоянию на середину 2020-х годов исследования многослойных нейронных сетей сосредоточены на следующих направлениях:
- масштабирование моделей до сотен миллиардов и триллионов параметров;
- самообучение (Self-supervised Learning);
- обучение с подкреплением совместно с глубокими сетями;
- мультимодальные модели;
- эффективное обучение с ограниченными вычислительными ресурсами;
- интерпретируемость и объяснимый искусственный интеллект (Explainable AI);
- безопасное и надёжное обучение;
- модели с разреженной активацией (Mixture of Experts);
- адаптация больших языковых моделей посредством параметрически эффективного обучения (PEFT, LoRA, адаптеры).
См. также
- Искусственная нейронная сеть
- Глубокое обучение
- Многослойный перцептрон
- Обратное распространение ошибки
- Градиентный спуск
- Функция активации
- Трансформер (машинное обучение)
- Свёрточная нейронная сеть
- Генеративный искусственный интеллект
Примечания
Литература
- McCulloch W., Pitts W. A Logical Calculus of the Ideas Immanent in Nervous Activity // Bulletin of Mathematical Biophysics. — 1943. — Т. 5. — С. 115—133.
- Rosenblatt F. The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain // Psychological Review. — 1958. — Т. 65. — № 6. — С. 386—408.
- Rumelhart D., Hinton G., Williams R. Learning Representations by Back-Propagating Errors // Nature. — 1986. — Т. 323. — С. 533—536.
- Cybenko G. Approximation by Superpositions of a Sigmoidal Function // Mathematics of Control, Signals and Systems. — 1989. — Т. 2. — № 4. — С. 303—314.
- Hornik K. Multilayer Feedforward Networks are Universal Approximators // Neural Networks. — 1989. — Т. 2. — № 5. — С. 359—366.
- He K., Zhang X., Ren S., Sun J. Deep Residual Learning for Image Recognition // Proceedings of CVPR. — 2016.
- Vaswani A. и др. Attention Is All You Need // Advances in Neural Information Processing Systems. — 2017.
- Brown T. и др. Language Models are Few-Shot Learners // Advances in Neural Information Processing Systems. — 2020.
- Bommasani R. и др. On the Opportunities and Risks of Foundation Models // arXiv. — 2021.
- Goodfellow I., Bengio Y., Courville A. Deep Learning. — MIT Press, 2016. — ISBN 9780262035613
- Bishop C. Pattern Recognition and Machine Learning. — Springer, 2006. — ISBN 9780387310732
- Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. — 2-е. — Springer, 2009. — ISBN 9780387848570
Ссылки
- Deep Learning // MIT Press.

