Домой
Технологии
Большие данные
Ваш искусственный интеллект обучается на мусоре. И в этом виноваты популярные инструменты для разметки данных

Ваш искусственный интеллект обучается на мусоре. И в этом виноваты популярные инструменты для разметки данных

Разработчики годами подходили к аннотации данных совершенно не с той стороны. Исправить ситуацию обещает новый подход, который ставит во главу угла не сам процесс разметки, а глубокое понимание данных.

Ник Лотц

Опубликовано 01.12.2025 в 21:04 8 мин

8 мин

Основные идеи

До 10% данных для ML-моделей содержат ошибки разметки, которые искажают итоговые результаты.

Правило «1-10-100» описывает стоимость ошибки, которая растет от разработки к эксплуатации.

Платформа FiftyOne использует машинное обучение, чтобы находить ошибки и приоритезировать данные.

Инструмент сокращает объём ручной проверки данных на 77% и ускоряет подготовку датасетов.

Мнение автора

Ник Лотц

Многие команды тратят ресурсы на слепую разметку, а потом борются с ошибками. Статья показывает, что выгоднее сменить подход. Прежде чем отправлять данные аннотаторам, стоит проанализировать их с помощью умных инструментов. Это позволит выявить проблемные участки и сэкономить массу времени.

Оглавление

Специалисты по обработке данных и машинному обучению столкнулись со скрытой угрозой, которая сводит на нет их усилия. Речь идет об ошибках аннотации — настоящем убийце продуктивности. Недавние исследования показали, что в среднем 10% данных для задач, которые связаны с поисковой релевантностью, размечены неверно. Даже эталонный набор данных ImageNet, который долгое время считался золотым стандартом в области компьютерного зрения, содержит 6% ошибок. Эксперты выяснили это ещё в 2024 году, и эти неточности годами искажали рейтинги моделей.

Проблема выходит далеко за рамки сухих цифр. Команды, которые занимаются компьютерным зрением, тратят слишком много времени на подготовку и аннотацию данных. Проблемы с качеством создают узкие места в разработке, потому что инженеры вынуждены тратить драгоценное время не на создание моделей, а на исправление чужих ошибок. Чтобы получить готовый к работе набор данных, командам приходится проводить от пяти до семи циклов проверки. Каждый такой цикл требует координации между аннотаторами, профильными экспертами и инженерами.

Финансовые последствия легко описать правилом «1-10-100». Исправить ошибку на этапе создания стоит условный 1 рубль, на этапе тестирования — уже 10, а после развёртывания системы — все 100, если учесть сбои в работе и репутационный ущерб.

Видео от DGL.RU

Почему существующие инструменты для разметки данных так плохи

Основная проблема существующих платформ — фундаментальный конфликт интересов, из-за которого управление качеством отходит на второй план. Коммерческие решения обычно работают по бизнес-моделям, которые поощряют объём. Они получают оплату за каждую аннотацию, а не за производительность итоговой модели. Это создаёт стимул размечать всё больше и больше данных, но мотивации предотвращать ошибки, которые снизили бы оплачиваемый объём работы, практически нет. Их закрытые процессы почти не дают представления о контроле качества, при этом они требуют минимальные контракты от 50 000 долларов (около 3,8 млн руб.). В итоге команды не могут понять, как систематически улучшать качество аннотаций.

Альтернативы с открытым исходным кодом, такие как Computer Vision Annotation Tool (CVAT) и Label Studio, сосредоточены на рабочих процессах разметки, но им не хватает сложных возможностей для обнаружения ошибок, которые необходимы для производственных систем. Они предоставляют базовые механизмы согласования, когда несколько аннотаторов проверяют одни и те же образцы, но не предлагают приоритизации образцов, которые действительно нуждаются в проверке, или системного анализа шаблонов ошибок.

Эти недостатки приводят к удручающей статистике: 45% компаний вынуждены одновременно использовать четыре или более инструмента для аннотаций. Они пытаются собрать воедино частичные решения, которые все равно оставляют пробелы в качестве. Результатом становится дорогой, многоэтапный процесс, в котором команды проходят через циклы первоначальной аннотации, обширной ручной проверки качества, раундов исправлений и повторной валидации. Каждый шаг добавляет недели к срокам разработки, потому что базовым инструментам не хватает интеллекта, чтобы систематически выявлять и предотвращать проблемы с качеством.

Современной ML-разработке нужны платформы, которые понимают данные, а не просто управляют процессом разметки. Без такого понимания команды остаются в ловушке циклов реактивного контроля качества. Эти циклы плохо масштабируются и поглощают инженерные ресурсы, которые должны быть сосредоточены на инновациях в моделях.

Решение, которое смотрит в корень проблемы

Флагманский продукт компании Voxel51 под названием FiftyOne коренным образом переосмысливает управление качеством аннотаций. Он рассматривает этот процесс как задачу понимания данных, а не как проблему рабочего процесса разметки. В отличие от традиционных платформ, которые сосредоточены на создании меток, FiftyOne помогает командам работать умнее. Он определяет, какие данные действительно требуют внимания и где наиболее вероятны ошибки.

Такой подход, который ориентирован на данные, представляет собой смену парадигмы: от реактивного контроля качества к проактивной аналитике данных. Вместо того чтобы вслепую размечать целые наборы данных или проверять случайные выборки, платформа использует анализ на основе машинного обучения. Она определяет приоритетность данных, которые имеют наибольшее значение, автоматически обнаруживает ошибки аннотаций и направляет человеческий опыт туда, где он важнее всего. FiftyOne использует машинное обучение, чтобы выявить конкретные, действенные проблемы с качеством. Эта методология признаёт, что ошибки аннотаций не случайны. Они следуют закономерностям, которые обусловлены визуальной сложностью, неоднозначными пограничными случаями и систематическими предубеждениями, и их можно обнаружить и исправить алгоритмически.

Эта аналитика превращает аннотацию из центра затрат в стратегическое преимущество. Вместо того чтобы смириться с 10% ошибок как с неизбежностью, команды могут систематически снижать их количество, одновременно сокращая время и затраты, которые нужны для достижения производственного качества наборов данных. FiftyOne поддерживается сообществом разработчиков открытого исходного кода, насчитывающим три миллиона установок, и используется командами из Microsoft, Google, Bosch, Ford и других компаний.

Автоматическое обнаружение ошибок с помощью оценки ошибочности

Функция compute_mistakenness() в FiftyOne выявляет потенциальные ошибки аннотации, анализируя расхождения между истинными метками и предсказаниями модели. Этот подход, который основан на машинном обучении, ранжирует ошибки по вероятности и влиянию. Он превращает недели ручной проверки в часы целенаправленной коррекции.

import fiftyone.brain as fob

# Automatically detect likely annotation errors
fob.compute_mistakenness(dataset, "predictions", label_field="ground_truth")

Система генерирует несколько индикаторов ошибок:

mistakenness: Вероятность того, что метка неверна (по шкале от 0 до 1).
possible_missing: Предсказания с высокой степенью уверенности, для которых нет соответствующей истинной метки.
possible_spurious: Несопоставленные объекты с истинной меткой, которые, скорее всего, неверны.

from fiftyone import ViewField as F

# Show most likely annotation mistakes first
mistake_view = dataset.sort_by("mistakenness", reverse=True)

# Find highly suspicious labels (>95% error likelihood)
high_errors_view = dataset.filter_labels("ground_truth", F("mistakenness") > 0.95)

# Identify samples with missing annotations
missing_objects_view = dataset.match(F("possible_missing") > 0)

Интерактивный интерфейс FiftyOne позволяет немедленно визуально проверить отмеченные ошибки. Команды могут быстро подтвердить, являются ли обнаруженные проблемы реальными ошибками аннотации или ограничениями модели. Это позволяет сосредоточить человеческий опыт на реальных проблемах, а не на проверке случайных выборок.

Ваш искусственный интеллект обучается на мусоре. И в этом виноваты популярные инструменты для разметки данных

Такая интеллектуальная приоритизация обычно позволяет достичь точных меток значительно быстрее по сравнению с подходами случайной выборки. Например, клиенты сообщают о сокращении на 77% количества изображений, которые отправляются на ручную проверку.

Обнаружение ошибок на основе паттерн-эмбеддинга

Визуализация паттерн-эмбеддингов в FiftyOne выявляет проблемы с качеством, которые невидимы для традиционных метрик. Анализ схожести, который используется на платформе, проецирует образцы в семантическое пространство. Это позволяет обнаружить кластеры похожих изображений с несогласованными аннотациями. Другими словами, эмбеддинги находят группы похожих объектов, которые должны быть помечены одинаково, но по какой-то причине это не так.

import fiftyone as fo
import fiftyone.brain as fob
import fiftyone.zoo as foz

# Path to BDD100k dataset files
source_dir = "/path/to/bdd100k-dataset"

# Load dataset
dataset = foz.load_zoo_dataset("bdd100k", split="validation", source_dir=source_dir)

# Compute patch embeddings using pre-trained model
model = foz.load_zoo_model("mobilenet-v2-imagenet-torch")

gt_patches = dataset.to_patches("detections")
gt_patches.compute_patch_embeddings(
    model=model, patches_field='detections',
    embeddings_field='patch_embeddings',
)

# Generate embedding visualization
results = fob.compute_visualization(
    gt_patches, embeddings='patch_embeddings', brain_key="img_viz"
)

# Launch interactive visualization
session = fo.launch_app(gt_patches)

Кластеры можно использовать для выявления ошибок аннотации, которые специфичны для конкретного поставщика и невидимы для статистических метрик качества. Эти ошибки становятся очевидными только при визуализации семантической схожести неверно классифицированных образцов.

Поиск по схожести для контроля качества

Как только вы находите одну проблемную аннотацию, поиск по схожести становится мощным инструментом для обнаружения всех связанных ошибок. Достаточно кликнуть на неверно помеченный образец, и система мгновенно найдёт наиболее похожие изображения, чтобы проверить, есть ли у них та же систематическая проблема с разметкой.

Функция поиска по схожести в FiftyOne превращает рутинную задачу «найти похожее» в мгновенное открытие. Вы индексируете свой набор данных один раз, а затем можете мгновенно извлекать визуально похожие образцы с помощью клика или программных запросов.

import fiftyone as fo
import fiftyone.brain as fob
import fiftyone.zoo as foz

# Load dataset
dataset = foz.load_zoo_dataset("quickstart")

# Index images by similarity
fob.compute_similarity(
    dataset,
    model="clip-vit-base32-torch",
    brain_key="img_sim"
)

# Sort by most likely to contain annotation mistakes
mistake_view = dataset.sort_by("mistakenness", reverse=True)

# Query the first sample and find 10 most similar images
query_id = mistake_view.take(1).first().id
similar_view = dataset.sort_by_similarity(query_id, k=10, brain_key="img_sim")

# Launch App to view similar samples and for point-and-click similarity search
session = fo.launch_app(dataset)

Ключевые возможности включают мгновенный визуальный поиск через интерфейс приложения, индексацию схожести на уровне объектов для патчей обнаружения и масштабируемые бэкенды. Они могут переключаться со scikit-learn на Qdrant, Pinecone или другие векторные базы данных для производственных задач.

Удаляйте проблемные образцы до того, как они попадут к аннотаторам

Рабочий процесс Data Quality в FiftyOne сканирует наборы данных на наличие визуальных проблем, которые обычно приводят к ошибкам аннотации. Встроенный анализатор обнаруживает проблемные образцы — слишком яркие или тёмные изображения, чрезмерное размытие, экстремальные соотношения сторон и почти дубликаты. Именно на таких данных аннотаторы часто размечают наугад и допускают неточности.

Как рабочий процесс Data Quality предотвращает ошибки аннотации:

Обнаружение яркости/размытия: Выявляет изображения низкого качества, на которых аннотаторы угадывают метки.
Поиск почти дубликатов: Обнаруживает несогласованные аннотации на визуально идентичных образцах.
Экстремальные соотношения сторон: Отмечает искажённые изображения, которые сбивают с толку аннотаторов относительно пропорций объектов.
Интерактивные пороги: Позволяет настроить чувствительность для исследования пограничных случаев, где качество ухудшается.

Некоторые команды смогли в 3 раза ускорить исследования, потому что они использовали систему тегов для изоляции проблемных образцов. Это предотвращает попадание плохих аннотаций в обучающий набор модели. Таким образом, контроль качества превращается из реактивной отладки в проактивную профилактику.

Работает с существующими инструментами и пайплайнами

FiftyOne может бесшовно интегрироваться с любой платформой, включая CVAT, Labelbox, Label Studio и V7 Darwin, вместо того чтобы заставлять команды отказываться от существующей инфраструктуры аннотаций. API платформы annotate() загружает образцы напрямую в эти сервисы, сохраняя при этом полное отслеживание происхождения. После исправления функция load_annotations() импортирует обновлённые метки обратно в FiftyOne для проверки.

Эта интеграция распространяется на всю платформу. FiftyOne нативно работает с PyTorch, TensorFlow и Hugging Face, что позволяет проводить оценку качества в рамках существующих ML-пайплайнов. Более того, архитектура плагинов FiftyOne обеспечивает быструю разработку пользовательского функционала, который адаптирован к конкретным рабочим процессам.

Подход FiftyOne, который ориентирован на данные, предлагает автоматическое обнаружение ошибок. Это сокращает время оценки качества на 80%, повышает точность модели на 15–30% и обеспечивает до 50% прироста операционной эффективности. Делая акцент на понимании и улучшении качества набора данных с помощью анализа на базе машинного обучения, FiftyOne выгодно отличается от традиционных платформ для разметки. И все это при сохранении открытой основы, которая обеспечивает прозрачность и гибкость. Для инженерных команд, которые тонут в проблемах качества аннотаций, решение — не в улучшении инструментов разметки, а в лучшем понимании данных. FiftyOne превращает качество аннотаций из ручного узкого места в автоматизированный, интеллектуальный процесс, который масштабируется в соответствии с потребностями современной ML-разработки.

Искусственный интеллект – искусственный пузырь? Экономист бьёт тревогу: крах неизбежен

Ник Лотц

Раньше он был инженером-химиком. А потом решил, что будет учить искусственный интеллект «видеть». Когда он не за своим столом, он уходит в поход. Его главный напарник в этих приключениях — его лабрадор-ретривер.