IaaS

от 490руб./мес

VMware / ПО РФ

SLA 99,95% Pay-as-you-go

HRM

от 8500 руб.

HCM-платформа

для автоматизации HR

Low-code

По запросу

Автоматизация процессов

с AMBER BPM

Корпоративные мессенджеры

От 200 руб/мес

Передовое

решение

ВКС

от 250 руб/мес

Платформа корпоративных

коммуникаций

IBP

по запросу

Универсальная CPM/EPM

self-service платформа

IaaS

По

Облако VMware/Брест

ФЗ-152, SLA 99,99%

BI

По запросу

Visary BI

Облачная аналитика

CRM

По запросу

B2B-CRM

для корпоративных продаж

Kubernetes

От 5,95 руб / час

№1 в рейтинге провайдеров

SLA 99,98%, 152-ФЗ

BPM

от 12 000 руб/год

Цифровые процессы

с комфортом для людей

Kubernetes

По запрос

Платформа

контейнеризации

Корпоративный портал

от 500 000 руб.

Российское решение

аналог Microsoft Sharepoint

IBP

По запросу

Интеллектуальная

платформа планирования

IBP

По запросу

Высокая скорость

принятия решений

  • HRM

    от 8500 руб.

    HCM-платформа

    для автоматизации HR

  • Low-code

    По запросу

    Автоматизация процессов

    с AMBER BPM

  • Корпоративные мессенджеры

    От 200 руб/мес

    Передовое

    решение

  • ВКС

    от 250 руб/мес

    Платформа корпоративных

    коммуникаций

  • IBP

    по запросу

    Универсальная CPM/EPM

    self-service платформа

  • IaaS

    По

    Облако VMware/Брест

    ФЗ-152, SLA 99,99%

  • BI

    По запросу

    Visary BI

    Облачная аналитика

  • CRM

    По запросу

    B2B-CRM

    для корпоративных продаж

  • Kubernetes

    От 5,95 руб / час

    №1 в рейтинге провайдеров

    SLA 99,98%, 152-ФЗ

CRM

по запросу

Мощная CRM/ERP

для серьезного бизнеса

DBaaS

От 3,98 руб./час

№1 в рейтинге DBaaS

SLA 99,95%, 152-ФЗ, PCI DSS

Kubernetes

от 5.51 руб/час

Kubernetes as a Service

Отказоустойчивые кластеры, быстрый запуск, удобное управление

IaaS

По запросу

По вашим правилам

Dedicated, SaaS/PaaS

IaaS

от 249,95 руб.

Для любых задач

Оплата pay-as-you-go

IBP

По запросу

Цифровая система

SCP и IBP

IaaS

По запросу

ФЗ-187, КЗ-1 ФЗ-152

УЗ-1, ГОСТ 57580.1

Корпоративные мессенджеры

от 250 руб/мес

Защищенная платформа

коммуникаций

СЭД

17 000 руб On-Prem

Цифровая трансформация

с ELMA365

ВКС

Стоимость по запросу

Тариф IVA MCU

BPM

17 000 руб On-Prem

Low-code BPM

для комплексной автоматизации

CRM

По запросу

ПО для управления

взаимоотношениями с клиентами

Low-code

от 833 руб.

Цифровая трансформация

с ELMA365

Корпоративные мессенджеры

Стоимость по запросу

Тариф IVA One

OCR в СЭД: ИИ-возможности для минимизации ручного труда

Маркет

Внедрение технологий оптического распознавания символов (OCR) в СЭД/ECM позволяет сократить ручной труд при обработке документов и существенно ускорить процессы документооборота. Александр Павлов, директор по развитию OCR-платформы SOICA компании SL Soft (ГК Softline), рассказал, какие рутинные задачи могут быть автоматизированы, почему не все OCR одинаково полезны и как ИИ-инструменты повлияли на возможности распознавания.

Функциональность OCR для СЭД примеры применения

На первый взгляд, внедрение юридически значимого электронного документооборота (ЭДО) должно было полностью исключить потребность в использовании OCR в СЭД. Однако этого не произошло и вот почему.

Во-первых, при получении файла в личном кабинете оператора ЭДО карточка неформализованного документа (к ним относятся договоры, приложения, спецификации, акты оказанных услуг и т.п.) зачастую содержит недостаточные для полноценной обработки данные. Это означает, что данные из такой карточки невозможно просто выгрузить в СЭД — сотрудникам приходится вручную вносить информацию из прикрепленных копий документов.

Ситуация осложняется, если документы, поступившие вместе с карточкой, представлены в растровых форматах (например, PDF без текстового слоя или JPG), поэтому из них невозможно напрямую извлечь текст. Даже если документы поступают в электронных форматах, таких как DOCX, недостающие данные все равно приходится вручную искать в файле, выделять, копировать и переносить в систему. По трудозатратам это почти не отличается от ручного ввода информации «с нуля».

Внедрение технологий оптического распознавания символов (OCR) в СЭД/ECM позволяет сократить ручной труд при обработке документов

Во-вторых, ЭДО — не единственный канал получения данных. На практике любая компания получает огромное количество самых разных документов, как электронных, так и бумажных, через различные каналы (почта, email и т.д.). Стремясь к повышению эффективности обработки этих документов, компании сталкиваются с задачей создания их электронных копий и последующей передачей извлеченной информации в учетные системы, СЭД и архивы. OCR-системы как раз предназначены для автоматизации рутинных операций при работе с документами, в том числе на этапе ввода данных в ИС.

Рассмотрим разные сценарии применения OCR при работе с СЭД, которые помогут повысить эффективность обработки документов:

  1. Автоматизация ввода данных в СЭД: OCR выделяет необходимые атрибуты из поступающих документов и передает их в целевую систему в требуемом формате. Это значительно ускоряет процесс обработки документов и снижается количество ошибок, связанных с ручным вводом.
  2. Дополнительные проверки при вводе данных: OCR может также выполнять сопутствующие задачи, такие как проверка наличия необходимых печатей и подписей, а также проверка комплектности пакета документов. Это помогает повысить точность и полноту вводимой информации.
  3. Распознавание и сверка текста в согласованных и подписанных договорах: OCR позволяет сравнивать текст в различных версиях договора, подписанных обеими сторонами, что способствует повышению юридической безопасности и снижению рисков мошенничества со стороны контрагентов.
  4. Полнотекстовое распознавание в отсканированных материалах или фотографиях документов: OCR обеспечивает возможность поиска по содержимому ранее бумажных документов. Используется, например, при оцифровке бумажного архива.

В дополнение к применению в СЭД, OCR находит свое место и в других бизнес-процессах:

  1. Финансы — OCR применяется для автоматизации ввода данных из счетов, договоров и актов в учетные информационные системы. Благодаря дополнительным проверкам (арифметические проверки сумм, сверка со справочниками) снижается число ошибок.
  2. Маркетинг — автоматическая обработка заполненных (даже вручную) клиентами анкет.
  3. Автоматизация обработки клиентских заявок на кредиты, страховки, лизинг и т.п. — к ним прикладываются ДУЛы, договоры, СНИЛС и другие документы, из которых надо извлекать данные.
  4. HR — автоматизация ввода данных из документов сотрудников (ДУЛы, дипломы, трудовые книжки и т.д.) при приеме на работу.
  5. Техническая документация — автоматизация индексации технической документации (чертежи, схемы и т.д.) для загрузки и последующего поиска в электронном архиве.
  6. Входящая корреспонденция, например, по email — классификация и дальнейшая маршрутизация.

Применение искусственного интеллекта в OCR

Сейчас громко звучит тема ИИ, в том числе, и в контексте OCR-решений. Разберемся, что это означает для пользователей и как влияет на возможности распознавания.

Современная архитектура OCR-систем включает в себя компоненты интеллектуального распознавания, но следует учитывать, что понятие «интеллектуальности» может интерпретироваться по-разному.

Первый подход можно назвать буквальным — это извлечение текста со сканов плохого качества (например, на документ было что-то пролито, а значит и скан получится нечетким). Возможна электронная реставрация такого текста, то есть система может «додумать» недостающие буквы. При этом она может опираться как на словарь, так и на на смысл, используя соседние символы и слова.

Второй подход связан с полнотекстовым анализом. Здесь весь текст, вместе с его координатами, уже извлечен, и требуется дальнейшая его обработка для получения нужной информации. Сделать это можно разными способами: по жесткому алгоритму (находим ключевые элементы, относительно которых мы определяем область поиска данных) или нейросетями.

В случае с нейросетями можно выделить несколько сценариев, основанных на разных моделях:

  1. Нейролокатор графический (работает с изображением). Данная нейросеть обучается искать геометрические области данных, и ищет наиболее подходящие части на скане документа, опираясь на размеченную выборку обучающих примеров. Подходит как для поиска текстовых данных, так и для графических (печати, подписи, штампы и т.п.).
  2. Нейролокатор текста. Модель работает с поданным на нее текстом, извлекая целевые именованные сущности (например, название производителя из этикеток продуктов). Обучается на основе размеченных фрагментов текста.
  3. LLM (большая языковая модель). Такая нейросеть получает результаты распознавания и запрос (промт) о том, что нужно с ними сделать. В отличие от специализированных моделей, LLM часто не требует дополнительного обучения или требует его в минимальном объеме — это зависит от предметной области. Мультимодальные LLM могут обрабатывать не только текст, но и изображения, что значительно упрощает процесс извлечения данных и делает его более универсальным.

Таким образом, наличие ИИ-инструментов в OCR существенно влияет на качество и скорость распознавания, а также на сложность и продолжительность настройки сценариев обработки документов. Платформа SOICA оснащена передовым OCR-движком и мощными нейросетевыми локаторами, которые обеспечивают всю необходимую функциональность для эффективной работы. В визуальной среде платформы можно без программирования размечать примеры документов, обучать нейросети и настраивать дополнительную обработку для решения самых сложных задач по извлечению данных из различных типов документов. Все это доступно в рамках единого решения.

Отдельная или встроенная в СЭД OCR: как выбрать

Во многих системах электронного документооборота (СЭД) уже есть встроенные OCR-модули. Однако, как мы уже разобрались, ключевым фактором выбора является не просто наличие OCR, а функциональные возможности, которые обеспечиваются ИИ-инструментами. Фактически существует три основных подхода к использованию OCR в сочетании с СЭД/ECM. Рассмотрим каждый из них подробнее.

1. Встроенный OCR с минимальной функциональностью

Первый вариант — это встроенный OCR-модуль в СЭД/ECM с базовыми возможностями. Такие модули часто создаются по принципу «чтобы было» и предназначены для решения только самых простых задач. Разработчики обычно сосредоточены на основном продукте — СЭД или архиве — и могут использовать готовые open source компоненты. Как правило, такие OCR-модули ограничены в функциональности и не подходят для сложных или масштабных задач. Они не включают передовые ИИ-инструменты, что ограничивает их возможности в обработке более сложных документов.

2. Встраиваемый SDK OCR

Второй вариант — использование OCR SDK, интегрированного в СЭД/ECM. Этот подход обеспечивает более широкий спектр возможностей и функциональности OCR, предлагая пользователям продвинутые инструменты для работы с документами. При этом важно убедиться, что все необходимые функции OCR доступны через интерфейс интегрированной системы, и они соответствуют требованиям вашего проекта. Пример подобной синергии — в продукты «Цитрос» для автоматизации документооборота включены встроенные модули оцифровки документов SOICA.

3. Отдельная OCR-платформа

Третий вариант — использование отдельной платформы OCR, которая работает совместно с СЭД/ECM, а также и с другими информационными системами. Компании, выбирающие этот путь, ориентируются на функциональную масштабируемость и понимают, что задачи OCR могут выходить за рамки типовых задач по документообороту. Такой подход позволяет использовать более продвинутые OCR-продукты, например, такие как SOICA, обладающие функциональностью, недоступной встроенным решениям. Обычно это визуальная среда настройки (для самостоятельной настройки обработки любых типов документов без программирования), работа с комплектами документов, рабочее место валидатора и менеджер пакетов (для мониторинга обработки).

Таким образом, при выборе OCR необходимо проанализировать все будущие сценарии применения технологии. Если задачи выходят за контур стандартных типовых задач СЭД/ECM, то однозначно стоит рассматривать отдельные специализированные решения. Они различаются между собой по точности распознавания, скорости обработки, возможности работать с нестандартными документами, способности распознавать рукописный текст, наличию и мощностью среды настройки новых типов документов, необходимости использования языков программирования для настройки, наличию интерфейса для валидации и другим параметрам. Выбор между встроенным и отдельным OCR-решением должен основываться на тщательном анализе ваших текущих и будущих потребностей, объема задач и требований к функциональности.

erid:LjN8KZsCbРекламодатель: ООО "Сойка"ИНН/ОГРН: 7704451468/1187746160458Сайт: https://www.soica.ru/

Короткая ссылка