today-is-a-good-day
Наверх
>

Искусственный интеллект от Directum распознает штампы на документах и экономит до 300 тыс. рублей в месяц

Российский вендор помог крупной федеральной компании решить проблему трудоемкой классификации технических паспортов. В рамках пилотного проекта команда Directum обучила свою интеллектуальную систему находить и определять количество нужных штампов на документах. Благодаря интеллектуализации только одного рутинного процесса заказчик сэкономил до 300 тыс. рублей в месяц.

26.09.2022
18:40
Комментировать0

Эти штампы «крадут» у сотрудников 50 часов в месяц

В ИТ-компанию Directum обратилась организация, которая каждый месяц закупает для основной деятельности около 300 устройств: аппаратов для подачи газа, датчиков, различных деталей. Каждый материально-технический ресурс (МТР) поступает с паспортом изделия. Специалист, ответственный за прием МТР, вручную просматривает паспорта устройств, классифицирует их по видам и проверяет наличие круглых цветных штампов.

Что особенного в этой, казалось бы, простой работе? Рассказывает Максим Князькин, руководитель направления по развитию внедрения и сопровождению Directum Ario:

«Дело в том, что на паспортах присутствуют самые разные штампы: квадратные, прямоугольные, круглые, треугольные. Но только круглый цветной штамп подтверждает исправность и готовность устройства к эксплуатации.

Вот несколько примеров паспортов МТР, взятых из открытых источников в интернете. К сожалению, документы заказчика показать не могу, так как заключен NDA:

Искусственный интеллект от Directum распознает штампы на документах и экономит до 300 тыс. рублей в месяц фото Искусственный интеллект от Directum распознает штампы на документах и экономит до 300 тыс. рублей в месяц фото Искусственный интеллект от Directum распознает штампы на документах и экономит до 300 тыс. рублей в месяц фото

На классификацию одного паспорта специалист тратил около 10 минут. В месяц это отнимало 50 часов, или 6 полноценных рабочих дней. Мы предложили компании-заказчику «переложить» рутину на плечи искусственного интеллекта. В рамках пилотного проекта обучили систему Directum Ario One выделять в общей массе штампов только те, которые были нужны нам.

Отмечу, что работы выполнялись в крайне сжатые сроки. Но благодаря богатому опыту и компетентному подходу заказчик оперативно получил результат, который его устроил».

Три этапа пилотного проекта

Расскажем пошагово, как протекали работы по распознаванию штампов в паспортах МТР.

Шаг 1. Зафиксировали цели и задачи проекта

На первом этапе определили три главных задачи, которые должна решить система Directum Ario One в рамках пилотного проекта:

  • классифицировать документы вида «паспорт МТР»;
  • определять наличие и количество цветных круглых штампов у документов нужного вида;
  • находить местоположение цветных круглых штампов.

Вместе с заказчиком установили, что испытания признаем успешными, если итоговая точность по следующим пунктам будет равна или больше 70%:

  • документы из предоставленной выборки корректно классифицированы: верно определен вид документа «паспорт МТР»;
  • верно определено наличие/отсутствие цветных круглых штампов и их количество;
  • корректно обнаружено местоположение цветных круглых штампов.

Шаг 2. Обучили сервис находить нужные штампы

В рамках нашей интеллектуальной системы Directum Ario One есть несколько сервисов, подходящих для поставленных задач – классификации документов и нахождения печати.

Обучение сервиса «Классификатор»

Для того чтобы провести корректную классификацию вида документа «паспорт МТР», мы запросили у заказчика выборку документов для обучения. Нам потребовалось около 400 примеров различных паспортов материально-технических ресурсов, чтобы загрузить их в Machine learning (машинное обучение, ML) и в результате получить модель.

Обучение одной модели на выборке занимало не более 1 часа, даже на железе с не самыми лучшими характеристиками и при условии параллельной загрузкой сервера другими ML-моделями.

Коротко о механике процесса:

  1. Из выборки заказчика извлекается текстовый слой с помощью OCR (Optical Character Recognition – оптическое распознавание символов).
  2. Каждому слову/символу присуждается вес, в зависимости от частоты повторения.
  3. Все извлеченные текстовые слои обрабатываются, формируется векторная модель вида документа:

Искусственный интеллект от Directum распознает штампы на документах и экономит до 300 тыс. рублей в месяц фото

Из Machine learning результат возвращался в виде модели. Оставалось протестировать ее на документах вне выборки и узнать точность определения вида документа. На тестовом прогоне результат составил 90%.

Обучение сервиса «Нахождение печати»

А вот здесь у нас уже всё было готово. Система Directum Ario One уже включала сервис с готовыми моделями. Ранее с помощью нейронных сетей мы обучали их на выборке около 25 000 документов находить и фиксировать количество штампов.

Оставалось только провести разметку области, где нужно искать этот штамп.

Искусственный интеллект от Directum распознает штампы на документах и экономит до 300 тыс. рублей в месяц фото Искусственный интеллект от Directum распознает штампы на документах и экономит до 300 тыс. рублей в месяц фото

На примерах подсвечена область поиска штампа и его процент попадания в эту область

После дообучения модели мы провели тестирование и получили 92% точности по нахождению и определению местоположения штампа.

Что не вошло в пилотный проект, но оказалось полезно

В ходе тестирования мы проверяли обученные модели на различных документах и разных штампах. Так иногда нейронка срабатывала на треугольную или другую печать, наша задача сводилась к тому, чтобы научить модель извлекать только круглый цветной штамп.

Проводили тесты с прямоугольными штампами, их наша модель успешно не находила.

Искусственный интеллект от Directum распознает штампы на документах и экономит до 300 тыс. рублей в месяц фото

Также в ходе тестирования мы обнаружили, что ML-модель находит незавершенные круглые цветные штампы. Это в целом повысило процент корректного нахождения до 94%.

Искусственный интеллект от Directum распознает штампы на документах и экономит до 300 тыс. рублей в месяц фото

Шаг 3. Удивили заказчика результатом

После завершения тестирования мы продемонстрировали результаты представителям заказчика, и они признали испытания успешными.

Однако коллеги не сразу поверили, что всё теперь делает искусственный интеллект. В момент встречи они попросили прогнать через нашу систему еще парочку документов, которых ранее не было в тестовой выборке. Мы были к этому готовы. Прогнав через Directum Ario One новые документы, получили результаты ничуть не ниже итоговых на пилоте.

По результатам пилотного проекта и испытаний заказчик получил финальный документ с результатами тестирования – «Протокол оценки точности классификации, определения наличия штампа и его местоположения». Дополнительно руководитель пилотного проекта прокомментировал каждый документ с распознанными или нераспознанными штампами.

Результаты пилотного проекта:

Также мы сообщили заказчику, что полученные показатели можно улучшить. Один из возможных вариантов – предоставить дополнительные выборки документов различных форм. Компания Directum планирует развивать полученные на пилоте модели и обучать их на новых штампах треугольной и прямоугольной формы.

Если читателям будет интересен описанный опыт, и они захотят протестировать или попробовать на своих данных или задачах наши интеллектуальные сервисы, команда Directum Ario One всегда открыта к пилотным и промышленным проектам.

Илья Петухов, руководитель развития AI-продуктов в компании Directum

Теги:

Ваши эмоции после прочтения статьи?

Прокомментируйте первым!

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

ЕЩЕ ОТ АВТОРА
1 ПУБЛИКАЦИЙ