Заглавная страница

Материал из MachineLearning.

Версия от 19:01, 19 января 2015; Yury Chekhovich (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

MachineLearning.ru Профессиональный информационно-аналитический ресурс, посвященный машинному обучению, распознаванию образов и интеллектуальному анализу данных. Сейчас ресурс содержит 1175 статей на русском языке. Poligon.MachineLearning.ru — Полигон алгоритмов классификации	Классификация	Распознавание образов
	Регрессионный анализ	Анализ и понимание изображений
	Прогнозирование	Обработка и анализ текстов
	Прикладная статистика	Прикладные системы анализа данных
	Обработка сигналов	Все направления

Концепция

Инструктаж

Все статьи

Ненаписанные статьи

Полезные ссылки

Частые вопросы

Справка

Цели Ресурса

Сконцентрировать информацию о достижениях ведущих российских научных школ в области машинного обучения, распознавания образов, анализа данных.
Способствовать обмену опытом, накоплению и распространению научных знаний в этой области.
Предоставить площадку для виртуальных научных семинаров и обсуждений.
Предоставить доступ к Полигону алгоритмов классификации — распределенной системе тестирования алгоритмов классификации на реальных прикладных задачах.

Основные принципы

Ресурс строится по принципам Википедии — свободной энциклопедии.

Содержимое Ресурса создаётся всеми его пользователями и является общественным достоянием. Каждый пользователь ресурса может создать или модифицировать статью или раздел (категорию), в любое время, в любом месте, располагая только доступом в Интернет.

Главное отличие от Википедии — профессиональная направленность тематики. Допускается (и поощряется) пополнение Ресурса специальными, полемическими и учебными материалами, информацией о незавершённых исследованиях, исходными кодами алгоритмов и программ. По этим причинам Ресурс не может являться частью Википедии. В то же время, не исключается возможность обмена материалами с Википедией и другими сетевыми энциклопедиями.

Новые статьи

Контекстное обучение (Renal Gazizullin) – [15:59, 25 июня 2026]
Flow Matching (Renal Gazizullin) – [15:45, 25 июня 2026]
Обсуждение публикации:SCAN: Learning to Classify Images Without Labels (Renal Gazizullin) – [15:29, 25 июня 2026]
Алгоритмы редукции дисперсии (SAGA, SVRG, SARAH) (Renal Gazizullin) – [15:02, 25 июня 2026]
Ускоренный градиент Нестерова (Arina Pakalova) – [09:11, 25 июня 2026]
Квантование нейронных сетей (Mihail Mishin) – [06:42, 25 июня 2026]
Генерация признаков (Arina Pakalova) – [06:12, 25 июня 2026]
ДНК задачи (Arina Pakalova) – [17:23, 24 июня 2026]
Смесь экспертов (Vsevolod Peretiatko) – [19:20, 23 июня 2026]
Метаобучение (Vsevolod Peretiatko) – [15:05, 23 июня 2026]

Список всех статей

Новое в разделе «Публикации»

Статья написана с использованием LLM Gemini 3.1 Pro и проверена участником Renal Gazizullin 18:10, 25 июня 2026 (MSD)

Статья будет дополнена изображениями, после возобновления качественной работы сайта

Van Gansbeke W., Vandenhende S., Georgoulis S., Proesmans M., Van Gool L. SCAN: Learning to Classify Images without Labels // ECCV. — 2020.

@inproceedings{vangansbeke2020scan,
  title={Scan: Learning to classify images without labels},
  author={Van Gansbeke, Wouter and Vandenhende, Simon and Georgoulis, Stamatios and Proesmans, Marc and Van Gool, Luc},
  booktitle={European Conference on Computer Vision},
  pages={268--285},
  year={2020},
  organization={Springer}
}

Аннотация

Статья описывает алгоритм SCAN (Semantic Clustering by Adopting Nearest neighbors), предлагающий двухэтапный подход к задаче необучаемой классификации изображений. Метод изолирует процесс извлечения признаков от этапа кластеризации, что позволяет избежать группировки данных на основе низкоуровневых визуальных эвристик (цвет, текстура) в пользу семантически значимых признаков.

Введение и мотивация

Классические подходы к сквозному (end-to-end) обучению кластеризации часто сталкиваются с проблемой вырождения признаков, когда сверточные нейронные сети группируют объекты на основе низкоуровневых признаков (таких как цветовые гистограммы, текстуры или общие фоны), а не их реального семантического содержания. Кроме того, одновременная оптимизация репрезентаций и распределения по кластерам порождает нестабильность обучения и склонность к тривиальным решениям. Авторы SCAN констатируют, что разделение этих двух процессов позволяет использовать сильные стороны современных методов контрастивного самообучения (self-supervised learning) для формирования робастных семантических пространств, в которых геометрическая близость векторов соответствует категориальной близости объектов.

Архитектура и метод SCAN

Алгоритм SCAN реализует последовательный трехстадийный конвейер:

Предварительное обучение эмбеддингов признаков посредством решения вспомогательной контрастивной задачи (pretext task).
Семантическая кластеризация путем максимизации согласия предсказаний для близких соседей в признаковом пространстве.
Саморазметка (self-labeling) модели на основе высокоуверенных предсказаний для уточнения решающих границ кластеров.

Pretext Task (Обучение признаков)

На первом этапе исходные изображения пропускаются через кодировщик признаков (архитектура ResNet-50), обучаемый без разметки с помощью алгоритмов контрастивного самообучения, таких как SimCLR^[1] или MoCo^[1]. Целевая функция нацелена на максимизацию сходства между различными случайными аугментациями одного и того же изображения (позитивные пары) и минимизацию сходства с другими изображениями батча (негативные пары). В результате формируется репрезентативное пространство, инвариантное к пространственным и цветовым искажениям, где взаимное расположение векторов определяется высокоуровневой семантикой.

SCAN (Semantic Clustering by Adopting Nearest neighbors)

Для каждого изображения $x_i$ из обучающей выборки $\mathcal{D}$ фиксируется его вектор признаков. На основе косинусного расстояния в признаковом пространстве для каждого объекта вычисляется множество из $K$ его ближайших соседей, обозначаемое как $\mathcal{N}_{x_i}$ .

Поверх замороженного кодировщика инициализируется классификационная голова, параметризованная весами $\theta$ . Данная подсеть преобразует изображение $x$ в дискретное распределение вероятностей по кластерам: $\Phi_{\theta}(x) \in [0, 1]^C$ , где $C$ — заданное число целевых классов. Идея SCAN заключается в том, что изображение и его ближайшие соседи должны иметь схожие вероятностные распределения по кластерам. Функция потерь кластеризации формулируется как максимизация скалярного произведения векторов предсказаний для пар близких объектов:

$\mathcal{L}_{SCAN} = - \frac{1}{|\mathcal{D}|} \sum_{x \in \mathcal{D}} \sum_{k \in \mathcal{N}_x} \log \langle \Phi_{\theta}(x), \Phi_{\theta}(k) \rangle$

Для предотвращения вырожденного решения, при котором модель присваивает все объекты выборки одному и тому же кластеру, вводится регуляризационный член, максимизирующий энтропию усредненного по мини-батчу распределения предсказаний:

$\mathcal{L}_{entropy} = \sum_{c=1}^C p_c \log p_c$

Где $p_c$ определяется как средняя вероятность отнесения объектов текущего мини-батча $\mathcal{B}$ к кластеру $c$ :

$p_c = \frac{1}{|\mathcal{B}|} \sum_{x \in \mathcal{B}} \Phi_{\theta}(x)_c$

Итоговый функционал потерь на этапе кластеризации представляет собой линейную комбинацию:

$\mathcal{L}_{total} = \mathcal{L}_{SCAN} + \lambda \mathcal{L}_{entropy}$

где $\lambda$ — гиперпараметр, регулирующий вклад энтропийного штрафа (в оригинальной работе $\lambda = 1$ ).

Self-Labeling (Саморазметка)

Этап семантической кластеризации позволяет сгруппировать основную массу данных, однако на границах кластеров могут оставаться неоднозначности, вызванные локальным шумом в графе ближайших соседей. Для очистки границ применяется шаг саморазметки.

Объекты, для которых уверенность предсказания превосходит жестко заданный порог $\tau$ , размечаются псевдометками (one-hot векторы $y_i$ ). Далее вся сеть дообучается на подмножестве уверенных примеров с использованием стандартной функции кросс-энтропии:

$\mathcal{L}_{self} = - \frac{1}{N} \sum_{i=1}^N \sum_{c=1}^C y_{ic} \log \Phi_{\theta}(x_i)_c$

Эксперименты и результаты

Эффективность алгоритма SCAN была подтверждена экспериментами на стандартных наборах данных для компьютерного зрения: CIFAR-10, CIFAR-100 (с использованием 20 суперклассов) и STL-10. Качество кластеризации измерялось с помощью метрик Accuracy (ACC), Normalized Mutual Information (NMI) и Adjusted Rand Index (ARI).

Изображение:SCAN results.jpg

На датасете CIFAR-10 метод SCAN достиг точности (ACC) 88.3%, на STL-10 — 76.7% (80.9% с последующей саморазметкой), превзойдя существовавшие на тот момент end-to-end подходы, такие как IIC^[1] (показавший 61.7% на CIFAR-10).

Примечания

Литература

Van Gansbeke W., Vandenhende S., Georgoulis S., Proesmans M., Van Gool L. SCAN: Learning to Classify Images without Labels // ECCV. — 2020. — С. 268-285.
Chen T. et al. A simple framework for contrastive learning of visual representations // ICML. — 2020. — С. 1597-1607.
He K. et al. Momentum contrast for unsupervised visual representation learning // CVPR. — 2020. — С. 9729-9738.
Ji X., Vedaldi A., Henriques J. Invariant Information Clustering for Unsupervised Image Classification and Segmentation // ICCV. — 2019. — С. 9865-9874.
Tim Genewein, Matija Franklin, Alexander Lerchner, Laurent Orseau, Samuel Albanie, Adam Bales, Cole Wyeth, Stephanie Chan, Iason Gabriel, Joel Z. Leibo, Allan Dafoe, Marcus Hutter, Thore Graepel, Shane Legg. From AGI to ASI. — DeepMind, ArXiv 2606.12683. — 10 Jun 2026. (подробнее)
Неделько, В. М. Машинное обучение в вероятностной постановке. Учебник. — Новосибирск: ИПЦ НГУ, 2026. — 432 с. (подробнее)
Jure Leskovec, Anand Rajaraman, Jeffrey D. Ullman Mining of Massive Datasets. — Cambridge University Press, 2014. — 511 p. (подробнее)
Сборник статей Past, Present, and Future of Statistical Science. — CRC Press, 2014. — 622 p. (подробнее)
Донской, В. И. Алгоритмические модели обучения классификации: обоснование, сравнение, выбор. — Симферополь: ДИАЙПИ, 2014. — 228 с. (подробнее)
Загоруйко, Н. Г. Когнитивный анализ данных. — Академическое издательство «ГЕО», 2012. — 203 с. (подробнее)
Мерков, А. Б. Распознавание образов. Введение в методы статистического обучения. — Едиториал УРСС, 2011. — 256 с. (подробнее)
Bishop, C.M. Pattern Recognition and Machine Learning. — Springer, 2006. — 738 p. (подробнее)
Jiawei Han, Micheline Kamber, Jian Pei Data Mining: Concepts and Techniques, Third Edition. — Morgan Kaufmann Publishers, 2012. — 703 p. (подробнее)

Все публикации

Последние новости

14 июня 2026 года — на MachineLearning.ru появились первые статьи, сгенерированные большой языковой моделью: Скользящий контроль и Дартмутский семинар.

Список всех новостей

Основные категории