Многослойная нейронная сеть

Материал из MachineLearning.

Версия от 13:21, 30 июня 2026; Liliia Davletova (Обсуждение | вклад)
(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск
Статья написана с использованием LLM ChatGPT 5.5 и проверена участником Liliia Davletova


Содержание

Многослойная нейронная сеть

Многослойная нейронная сеть (МНС, MLN, также часто многослойный перцептрон, MLP) — класс искусственных нейронных сетей, состоящих из нескольких последовательно соединённых слоёв искусственных нейронов, способных аппроксимировать сложные нелинейные зависимости между входными и выходными данными. Современные многослойные нейронные сети являются фундаментом глубокого обучения и лежат в основе большинства достижений в областях компьютерного зрения, обработки естественного языка, распознавание речи, машинного перевода, генеративного искусственного интеллекта и других направлений машинного обучения.

История

Первые математические модели искусственных нейронов были предложены Уоррен Маккаллоком и Уолтером Питтсом в 1943 году. В 1958 году Фрэнк Розенблатт разработал перцептрон, который мог обучаться классификации линейно разделимых данных.

В 1969 году публикация книги Perceptrons Марвина Минского и Сеймура Пейперта показала фундаментальные ограничения однослойных сетей, что привело к временному снижению интереса к исследованиям нейронных сетей.

Переломным моментом стала публикация в 1986 году алгоритма обратного распространения ошибки, позволившего эффективно обучать сети с несколькими скрытыми слоями. Позднее развитие вычислительной техники, появление больших наборов данных и использование графических процессоров сделали возможным обучение очень глубоких моделей.

С начала 2010-х годов многослойные сети стали основой современных методов глубокого обучения.

Архитектура

Типичная многослойная нейронная сеть состоит из следующих компонентов:

  • входной слой, принимающий признаки объекта;
  • один или несколько скрытых слоёв;
  • выходной слой, формирующий прогноз.

Каждый нейрон вычисляет

z = \sum_{i=1}^{n} w_i x_i + b,

где:

  • x_i — входные значения;
  • w_i — веса;
  • b — смещение (bias).

После вычисления линейной комбинации применяется функция активации, например:

Наличие нелинейной функции активации позволяет сети моделировать сложные нелинейные зависимости. Без неё вся последовательность линейных преобразований сводилась бы к одному линейному преобразованию.

Математическая модель

Пусть сеть состоит из L слоёв.

Для слоя l

\mathbf{h}^{(l)} = \sigma\left(W^{(l)} \mathbf{h}^{(l-1)} + \mathbf{b}^{(l)} \right),

где

  • W^{(l)} — матрица весов;
  • \mathbf{b}^{(l)} — вектор смещений;
  • \sigma — функция активации.

Вся сеть представляет собой композицию функций

f(x)=f_L\circ f_{L-1}\circ\dots\circ f_1(x).

Именно композиция большого числа нелинейных преобразований обеспечивает высокую выразительную способность модели.

Обучение

Обучение многослойной нейронной сети заключается в подборе весов, минимизирующих функцию потерь.

Наиболее распространённая схема включает:

  1. прямое распространение сигнала;
  1. вычисление ошибки;
  1. применение алгоритма обратного распространения ошибки;
  1. обновление параметров с использованием градиентного спуска или его модификаций.

На практике широко используются оптимизаторы:

Регуляризация

Для предотвращения переобучения применяются:

Теоретические свойства

Универсальная аппроксимация

Одним из фундаментальных результатов теории нейронных сетей является теорема об универсальной аппроксимации, согласно которой многослойная сеть с одним скрытым слоем достаточной ширины способна аппроксимировать любую непрерывную функцию на компактном множестве с произвольной точностью.

Однако на практике глубокие сети часто оказываются значительно эффективнее широких однослойных моделей, поскольку используют иерархическое представление признаков.

Представление признаков

Глубокие сети автоматически формируют признаки различного уровня абстракции.

Например, при обработке изображений:

  • первые слои выделяют границы;
  • средние — текстуры;
  • глубокие — части объектов;
  • последние — целые объекты.

Подобная иерархия признаков является одной из главных причин эффективности глубокого обучения.

Основные разновидности

Многослойная архитектура используется практически во всех современных нейронных моделях.

К наиболее распространённым относятся:

Области применения

Многослойные нейронные сети используются для решения широкого круга задач:

  • классификация изображений;
  • обнаружение объектов;
  • сегментация изображений;
  • распознавание речи;
  • синтез речи;
  • обработка естественного языка;
  • машинный перевод;
  • поиск информации;
  • рекомендательные системы;
  • прогнозирование временных рядов;
  • медицинская диагностика;
  • биоинформатика;
  • робототехника;
  • автономное управление транспортом;
  • генерация текста;
  • генерация изображений;
  • генерация программного кода.

Преимущества

К достоинствам многослойных нейронных сетей относятся:

  • высокая выразительная способность;
  • автоматическое извлечение признаков;
  • возможность обучения на больших объёмах данных;
  • универсальность применения;
  • масштабируемость.

Недостатки

Основными ограничениями являются:

  • высокая вычислительная сложность;
  • значительные требования к объёму данных;
  • сложность интерпретации результатов;
  • чувствительность к выбору гиперпараметров;
  • большое энергопотребление при обучении крупных моделей.

Современные исследования

По состоянию на середину 2020-х годов исследования многослойных нейронных сетей сосредоточены на следующих направлениях:

  • масштабирование моделей до сотен миллиардов и триллионов параметров;
  • самообучение (Self-supervised Learning);
  • обучение с подкреплением совместно с глубокими сетями;
  • мультимодальные модели;
  • эффективное обучение с ограниченными вычислительными ресурсами;
  • интерпретируемость и объяснимый искусственный интеллект (Explainable AI);
  • безопасное и надёжное обучение;
  • модели с разреженной активацией (Mixture of Experts);
  • адаптация больших языковых моделей посредством параметрически эффективного обучения (PEFT, LoRA, адаптеры).

См. также

Примечания

Литература

  • McCulloch W., Pitts W. A Logical Calculus of the Ideas Immanent in Nervous Activity // Bulletin of Mathematical Biophysics. — 1943. — Т. 5. — С. 115—133.
  • Rosenblatt F. The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain // Psychological Review. — 1958. — Т. 65. — № 6. — С. 386—408.
  • Rumelhart D., Hinton G., Williams R. Learning Representations by Back-Propagating Errors // Nature. — 1986. — Т. 323. — С. 533—536.
  • Cybenko G. Approximation by Superpositions of a Sigmoidal Function // Mathematics of Control, Signals and Systems. — 1989. — Т. 2. — № 4. — С. 303—314.
  • Hornik K. Multilayer Feedforward Networks are Universal Approximators // Neural Networks. — 1989. — Т. 2. — № 5. — С. 359—366.
  • He K., Zhang X., Ren S., Sun J. Deep Residual Learning for Image Recognition // Proceedings of CVPR. — 2016.
  • Vaswani A. и др. Attention Is All You Need // Advances in Neural Information Processing Systems. — 2017.
  • Brown T. и др. Language Models are Few-Shot Learners // Advances in Neural Information Processing Systems. — 2020.
  • Bommasani R. и др. On the Opportunities and Risks of Foundation Models // arXiv. — 2021.
  • Goodfellow I., Bengio Y., Courville A. Deep Learning. — MIT Press, 2016. — ISBN 9780262035613
  • Bishop C. Pattern Recognition and Machine Learning. — Springer, 2006. — ISBN 9780387310732
  • Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. — 2-е. — Springer, 2009. — ISBN 9780387848570

Ссылки

Личные инструменты