etence.ocr: распознавание и обработка документов

Извлекаем данные из скан-образов, настраиваем обработку под типы документов компании и встраиваем результат в действующий контур через интерфейс или API.

Group 512569.svg

Когда подходит etence.ocr

Решение полезно компаниям, которые регулярно получают сканы, фотографии или пакеты документов и хотят быстрее переводить их в проверяемые структурированные данные. Конфигурация подбирается под типы документов, качество входящих изображений, правила проверки и способы передачи результата во внутренние системы.

1.png

Как работает решение

Group 34316.svg

Решение принимает от сотрудника или по API скан документа

Group 34317.svg

С помощью OCR, нейронных сетей и собственных алгоритмов из документов извлекаются данные

Group 34317.svg

Полученные данные в структурированном виде становятся доступны в интерфейсе или передаются по API

Кому подходит etence.ocr

Решение уместно там, где поток документов уже влияет на скорость обслуживания, нагрузку бэк-офиса или качество данных в CRM, ERP, документообороте и отраслевых системах.

defice.svg
Анкеты и заявки
Когда клиенты или сотрудники регулярно передают документы, которые нужно быстро проверить и перенести в систему.
defice.svg
Бэк-офис
Когда ручной ввод данных замедляет обработку и создаёт риск ошибок в типовых операциях.
defice.svg
Интеграции
Когда результаты распознавания нужно передавать в CRM, ERP, документооборот или отраслевую систему.

Какие сценарии закрывает решение

analysis.svg

Анализ и обработка входящего потока документов (в том числе документов без наличия формализованной структуры)

doc.svg

Проверка качества и правильности заполнения входящего потока документов
 

classify.svg

Классификация документов

 

analys2.svg

Извлечение данных на основе технологий машинного обучения
 

done.svg

Проверка корректности полученной информации
 

cube.svg

Генерация производной информации и передача требуемой информации во внешние системы

Какие документы можно распознавать

Состав поддерживаемых документов настраивается под проект: от типовых удостоверяющих и бухгалтерских документов до договоров, спецификаций и неструктурированных материалов.

Документы физического лица

  • Паспорт
  • СНИЛС, ИНН
  • Военный билет
  • Заграничный паспорт РФ
  • Водительское удостоверение, СТС, ПТС
  • Вид на жительство
  • ID иностранных граждан
  • Свидетельство о рождении, браке и разводе
  • Трудовая книжка
  • Справка 2-НДФЛ или по форме банка

Бухгалтерские документы

  • УПД
  • Счёт-фактура
  • Товарная накладная
  • Счёт, акт и чек

Неструктурированные

  • Договор
  • Спецификации
  • Письма
Group 512561.png
Group 512562.png
Group 512564.png

Где применяется распознавание документов

etence.ocr можно внедрять в разных отраслях, если есть повторяемый поток документов, требования к скорости обработки и необходимость передавать результат дальше по процессу.

finance.svg

Банки и финансовые организации

doc2.svg

Страховые компании

taxi.svg

Такси и каршеринг

audit.svg

Бухгалтерские и аудиторские службы

travel.svg

Туризм

it.svg

IT-платформы

buildings.svg

Недвижимость

law.svg

Юридические компании

ed.svg

Образовательные организации

Что это даёт бизнесу

Check.svg
Быстрее обработка
Документы проходят первичное распознавание и попадают к сотруднику уже в структурированном виде.
Check.svg
Меньше ручной нагрузки
Операторы тратят меньше времени на перенос данных и повторные проверки типовых полей.
Check.svg
Интеграция с контуром
Результаты можно передавать через API или использовать в рабочем интерфейсе сотрудников.
Check.svg
Контроль качества
Сотрудник видит спорные места и может проверить данные до передачи в следующий процесс.

Из чего состоит решение

Интерфейс сотрудника

Обработка изображений

Управление бизнес-процессами

Очередь обработки пакетов документов

Интерфейс сотрудника

Интерфейс помогает работать с пакетами документов, проверять результаты распознавания и выполнять административные настройки решения.

Фильтрация

Для взаимодействия с большим набором обрабатываемых пакетов пользователям предоставляется функционал фильтрации, сортировки и полнотекстового поиска (включающего в себя сквозной поиск по распознанному со скан-изображений тексту) по всем загруженным в Систему пакетам документов.

Frame 512622.png
Frame 512571.png

Контроль данных пользователем

Обработанные Системой документы могут быть проверены пользователями Системы на соответствие обработки с требуемыми метриками качества извлечения информации и преобразования скан-изображений.

При нахождении несоответствий, документы могут быть отмечены специальными маркерами, влияющими на дальнейшие стадии бизнес-процесса обработки пакета.

пакет таблица.png

Обработка документов

Этот слой отвечает за предобработку изображений, классификацию, распознавание текста и извлечение нужных полей.

процесс большой.png

Пакеты документов попадают в очередь обработки. С учётом заданных приоритетов решение выполняет следующие задачи:

defice.svg

Улучшение исходных изображений: увеличение контраста, яркости, подавление шума

defice.svg

Обрезка и поворот изображений

defice.svg

Разбиение многостраничных документов на одностраничные

defice.svg

Разбиение изображений, содержащих несколько документов, на отдельные документы

defice.svg

Классификация каждого полученного документа согласно словарю предопределенных типов документов

defice.svg

Извлечение текстовых данных с изображения

defice.svg

Извлечение ключевых слов, требуемых для конкретного типа документов согласно словарю

defice.svg

Наложение на исходные скан-изображения текстового слоя

Управление бизнес-процессами

Сценарии обработки настраиваются под входные данные, события, правила проверки и передачу результатов во внешние системы.

Настройка входных данных

  • Автоматическое получение данных из внешних систем
  • Получение данных из внешних систем по заданному расписанию
  • Получение данных из внешних систем при наступлении событий во внешней системе
  • Ручное добавление данных
Процесс1.png
Процесс2.png

Настройка событий обработки пакетов

  • Отправка сообщений о наступлении события во внешние системы
  • Отправка e-mail уведомлений о наступлении событий
  • Автоматическое изменение пакетов документов при наступлении событий
  • Отправка промежуточной информации во внешние системы
  • Настройка необходимости ручной верификации обработки пакетов

Настройка результатов обработки пакетов документов

  • Автоматическая отправка результатов после окончания обработки
  • Рассылка e-mail оповещений с результатами обработки
  • Ручная обработка результатов
Процесс3.png

Очередь обработки пакетов документов

Очередь помогает управлять приоритетами, нагрузкой и статусами обработки в режиме реального времени.

  • выбор приоритетных пакетов документов;
  • балансировка нагрузки;
  • синхронизация параллельных процессов;
  • контроль статусов и результатов обработки.

Технический контур

Серверная часть решения

Использует технологии, которые можно развернуть в облачной инфраструктуре Kubernetes / Docker:

  • PostgreSQL;
  • Elasticsearch;
  • RabbitMQ;
  • Zeebe;
  • Minio (S3);
  • Redis.

Клиентская часть решения

Для работы с клиентской частью нужен браузер на рабочей станции.

Что дальше

Если нужно оценить, какие документы стоит распознавать в первую очередь и как встроить обработку в существующий процесс, можно обсудить задачу с командой RobotBull. Мы поможем уточнить входной поток, качество данных, интеграции и границы пилотного внедрения.