Владимир Арлазаров (Smart Engines): «Российский рынок систем распознавания с технологической точки зрения опережает мировой на несколько лет»

В прошлом году Smart Engines заработала на распознавании документов в России более 1 миллиона евро, что в 4 раза превышает показатели 2016 года. Кроме того, на Mobile World Congress 2018 в Барселоне компания показала технологию распознавания удостоверяющих документов всех стран мира и анонсировала выход на международный рынок. Редакция Apps4All узнала у Владимира Арлазарова, генерального директора Smart Engines, каковы особенности их продуктов, кто основные пользователи и на каком уровне находится российский рынок технологий распознавания.

Владимир, добрый день. Расскажите, как долго вы шли к экспансии и что стало решающим фактором?

Наша активная работа на международном рынке сейчас только начинается. За прошедший год мы разработали новую технологическую платформу искусственного интеллекта HIEROGLYPH и на ее базе подготовили качественный продукт, который позволяет распознавать паспорта, ID карты и водительские удостоверения для более чем 55 стран мира. На уровне платформы мы уже поддерживаем 38 языков распознавания и успешно локализовали продукт для работы с документами на английском, немецком, французском, испанском, португальском языках. А это потенциальная география применения до 1.5 миллиардов пользователей.

О первых результатах экспансии можно будет говорить к концу 2019 года. Зная специфику работы с крупными европейскими и американскими заказчиками, мы понимаем, что путь от первого контакта до заключения сделки занимает 1-2 года.

Но в России у нас хорошие кейсы и подтверждение востребованности решений со стороны рынка. При этом стоит учитывать тот факт, что российский рынок сейчас на пару лет опережает западный по уровню проникновения мобильных технологий в бизнесе, в том числе это касается и распознавания. Достаточно посмотреть на такие компании как Тинькофф, Почта Банк, Альфа-Банк, Ингосстрах, QIWI.

Вы уже второй раз подряд участвуете в MWC, изменилось ли что-то за год? Оправдались ли ваши ожидания от выставки?

Да, отношение к технологии изменилось. Это связано с тем, что ее начинают воспринимать как необходимый элемент мобильной инфраструктуры. Многие потребители закладывают требования по обеспечению функциональности распознавания в мобильных приложениях уже на этапе технического задания.

Что касается наших ожиданий, то они, как и год назад, оправдались. MWC — это уникальная площадка, которая дает возможность за 1 неделю начать коммуникацию с большим количеством потенциальных клиентов со всего мира. А дальше, конечно, все зависит уже от вас и от вашего продукта.

Smart IDReader: расскажите вкратце, как работают алгоритмы?

Наш флагманский продукт Smart IDReader представляет собой многоплатформенное решение по распознаванию идентификационных документов. Под документами в данном случае мы понимаем как классические удостоверения личности (паспорта, ID карты, водительские права и т.д.), так и банковские карты или автомобильные номера. Решение позволяет обрабатывать видео, фотографии, сканы документов и их копии, полученные с помощью телефонов, планшетов, веб-камер и сканеров. Мы стали первыми, кто представил промышленное решение по распознаванию паспорта РФ в видеопотоке на мобильных устройствах.

Алгоритмы Smart IDReader можно разделить на 3 функциональные группы: поиск документа на изображении, определение типа документа и извлечение требуемой информации. Если на вход нам подается видеопоток, то мы обрабатываем поступающие изображения и после этого выполняется межкадровая интеграция результатов распознавания. Преимущество работы с видеопотоком в том, что для точного распознавания мы можем увидеть и извлечь данные с разных кадров. Например, на одном кадре мы распознаем на документе ФИО, но из-за блика не можем распознать его номер и его мы дораспознаем с другого кадра. Когда мы работаем с фотографией у нас такой возможности нет.

При работе с видео на смартфонах, в отличие от серверных решений с условно неограниченной производительностью, на первый план выходят вопросы быстродействия. Важно, чтобы технология работала не только на топовых устройствах, но и на мобильных телефонах с достаточно простыми аппаратной начинкой и камерой. Если говорить о времени распознавания в видеопотоке, то для паспорта гражданина РФ оно не должно составлять больше чем несколько секунд.

Качество распознавания в нашем продукте не зависит от программно-аппаратного окружения, а быстродействие определяется доступными вычислительными ресурсами. Наши алгоритмы распознавания оптимизированы для архитектур «Эльбрус», SPARC, ARM, MIPS, x86 и совместимы с операционными системами iOS, Android, Sailfish Mobile OS RUS, «Эльбрус», Linux (включая Astra Linux и «Атликс»), Windows, macOS и Solaris.

Владимир Арлазаров (Smart Engines): «Российский рынок систем распознавания с технологической точки зрения опережает мировой на несколько лет» Cтатьи Новости

Понятно, что популярнее всего технология используется в финтех-проектах. При этом в копилке у вас крупные игроки. Насколько сложно было договариваться с ними? Чаще всего вы к ним приходили или они к вам? Были ли какие-то факапы в тестовом периоде, например?

Договариваться с крупными компаниями — это всегда сложно. Но с другой стороны — это понятный рабочий процесс. Наша продажа обычно организована следующим образом. Мы даем на тестирование программу, и клиенты могут сами, без нашего участия, оценить ее возможности для своего бизнеса. Напомню наши решения многоплатформенные и нам важно, чтобы они корректно работали на всех поддерживаемых ОС и платформах. Если для iOS, Linux, Windows, «Эльбрус» заказчику удалось запустить программу, то дальше мы уже не волнуемся. А вот с Android ситуация другая. Огромное количество типов устройств и прошивок от производителей существенно усложняют нашу задачу. И так называемые факапы тестирования и были связаны с тем, что программа не работает/не распознает на каком-то отдельном устройстве. Мы находили или покупали такое устройство, воспроизводили эту проблему и решали ее.

По поводу того, кто к кому приходит — хочу выделить случаи, когда кто-то из топ-менеджеров сталкивался с нашей технологией лично в установленном на своем телефоне мобильном приложении и потом инициировал взаимодействие с нашей компанией.

А в чем заключается ваше сотрудничество с Sailfish Mobile OS RUS?

Sailfish Mobile OS RUS — это защищенная мобильная операционная система, которая прошла сертификацию в ФСБ России. Цель нашего сотрудничества предложить заказчикам безопасные технические решения по извлечению, обработке и передаче персональных данных в мобильных системах. Коллеги из компании «Открытая мобильная платформа» помогали нам в портировании, и теперь мы можем предложить нашим клиентам принципиально новый мобильный продукт.

Ваша новая разработка — система искусственного интеллекта HIEROGLYPH – на кого ориентирована? Какие дает преимущества? Насколько сложно технически она создана?

В процесс ее создании участвовали: 14 кандидатов наук, 1 доктор наук, 1 член-корреспондент РАН. Технология HIEROGLYPH воплотила в себе наши передовые идеи и научные достижения в области ИИ и обработки изображений. Уже защищена первая кандидатская диссертация по этой теме и на подходе еще как минимум 4, опубликовано более 50 научных статей. Все наши ресурсы были задействованы, чтобы сделать технологию максимально простой, быстрой и универсальной.

Если говорить о преимуществах, то это: качество, скорость, мобильность, возможность настройки распознавания документа по минимальному числу примеров, обучение новому языку за 8 часов и т.д. Нам пришлось решить ряд научных задач, которые были еще никем не решены. Например, разработать метод, которому достаточно для обучения новому типу документа только 1 примера.

В HIEROGLYPH мы смогли решить известную проблему, связанную с большой вычислительной сложностью стандартных решений в области обучения машин. Для оптимизации быстродействия глубоких нейронных сетей была использована сепарированная архитектура сверточных слоев и 8-битная модель вычислений. Большинство программных функций платформы поддерживают обработку в 8-битной целочисленной арифметике, что позволяет вычислять ответ глубоких нейронных сверточных сетей в восьмибитном тракте.

Другая решенная научная задача связана с обеспечением высокого качества распознавания при работе с видеопотоком в мобильных приложениях при неизвестном освещении. В HIEROGLYPH реализована технология вычислительно эффективной зрительной памяти, которая основана на построении для изображений компактных описаний, инвариантных к яркостным и пространственным искажениям в виде векторов многомерного метрического пространства.

Владимир Арлазаров (Smart Engines): «Российский рынок систем распознавания с технологической точки зрения опережает мировой на несколько лет» Cтатьи Новости

А вообще большая ли у вас команда? Как распределены зоны ответственности внутри?

В нашей команде более 45 человек. Чистых разработчиков у нас нет, так как все подключены к решению исследовательских задач. По принципу организации работы мы очень похожи на КБ или НИИ, с лабораториями и научными сотрудниками. В штате компании 2 доктора наук и 16 кандидатов наук. Большое внимание уделяется обучению студентов и аспирантов, в том числе на нашей кафедре МФТИ. Мы в полной мере научная компания. Участвуем в международных научных конференциях и публикуем результаты исследований в высокорейтинговых журналах.

Из достижений прошлого года можно отметить победу команды Smart Engines в международном конкурсе по бинаризации документов DIBCO 2017 (Document Image Binarization Competition), итоги которого были объявлены на ведущей научной конференции по распознаванию документов ICDAR (International Conference on Document Analysis and Recognition) в городе Киото.

И в заключении, дайте какую-то оценку российскому рынку технологий распознавания: на каком уровне мы сейчас находимся в сравнении с западом, например?

Хочу еще раз отметить, что российский рынок систем распознавания и особенно его перспективный сегмент, связанный с распознаванием на мобильных платформах, с технологической точки зрения опережает мировой на несколько лет. При этом мы сейчас находимся на этапе становления, когда есть 2 основных игрока компании Smart Engines и Abbyy. По мере дальнейшего развития технологический порог входа могут преодолеть еще несколько компаний. И хотя пока нет точной информации по рынку от экспертных и рейтинговых организаций, результаты нашей работы за прошлый год говорят об его большом потенциале.

Владимир, благодарю за беседу, успехов вам!

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *