На Инновационном форуме в Санкт-Петербурге обсудили актуальные вопросы процессинга данных
18.11.2019
18.11.2019. 15 ноября в КВЦ «Экспофорум» в рамках XII Петербургского международного инновационного форума состоялся круглый стол «Новейшие технологические решения для процессинга больших данных. От BigData к SmartData». Организатор: группа компаний ЭГО Транслейтинг, при содействии НП «РУССОФТ».
Своим мнением по актуальным вопросам обработки, хранения, аналитики, обеспечения конфиденциальности данных, а также опытом работы с большими данными и кейсами применения технологий в промышленности и других сферах (ритейле, финансовом секторе, медицине) поделились топ-менеджеры и ведущие специалисты российских и международных компаний: FirstLineSoftware, ABBYY Россия, RAIDIX, Талмер (ИКС Холдинг), PROMT, ЭГО Транслейтинг, Кодекс, СБКлауд, Ivideon.
Открыли дискуссию модераторы круглого стола – Сергей Фалеев, директор представительства в г. Санкт-Петербург ФГБНУ НИИ РИНКЦЭ – Северо-Западного центра экспертизы (СЗЦЭ), инженер Центра Национальной технологической инициативы "Новые производственные технологии" Санкт-Петербургского Политехнического университета, Академик Международной академии информации, информационных процессов и технологий (МАН ИПТ) и Евгения Городецкая – вице-президент по технологическому развитию группы компаний ЭГО Транслейтинг. Серей Фалеев заострил внимание на понятийном аппарате категории Большие данные (BigData) и напомнил присутствующим о принятой государственной программе «Цифровая экономика Российской Федерации», паспорт которой был официально опубликованном в феврале 2019, а Евгения Городецкая призвала активно делиться опытом успешных внедрений технологии BigData в промышленное производство.
Среди наиболее актуальных аспектов, связанных с применением технологий на основе BigData, эксперты отметили:
Непонимание или недостаточно глубокое понимание заказчиками сути технологии.
Илья Блаер – заместитель генерального директора FirstLineSoftware подчеркнул: «Существует, зачастую, непонимание сути технологии, того, какие именно данные нужно собирать, как выделять из общего массива полезную информацию, как использовать данные? Ведь смысл и цель технологии BigData - превращение их в SmartData, иными словами, извлечение из них пользы».
Леонид Губарьков - ведущий специалист по разработке решений искусственного интеллекта компании Талмер (Системная интеграция) в своем выступлении поддержал насущность этой проблемы. По его мнению, рабочий процесс вокруг машинного обучения выстраивается несложно, однако, основная проблема кроется в том, что чаще всего задача формулируется бизнесом достаточно размыто.
По мнению экспертов, необходима большая работа по обучению клиентов сути и важности этих технологий, как вариант, на примере пилотных проектов. Нужно проводить разъяснения по этому поводу, с привлечением бизнес-аналитиков – экспертов определенной отрасли, доносить до бизнеса необходимость грамотного внедрения технологий сбора и обработки данных. На этапе определения задачи необходимо детально обсуждать бизнес требования.
Ненадлежащее качество данных или их отсутствие.
Леонид Губарьков, Талмер в своем выступлении, посвященном основным проблемам машинного обучения и путям их решения отметил, что с наступлением эпохи Индустрии 4.0, мир переходит к киберфизическим системам. Ключевой вопрос пока лежит в разрезе внедрения на производствах: оцифровка разных данных, порой низкого качества, а также разработка алгоритмов DataScience (науки о данных). Спикер акцентировал внимание на такой проблеме машинного обучения, как отсутствие данных, необходимых для обучения алгоритма. Часто требуется человеческий опыт, а откуда его брать, если, например, новая буровая установка не имела опыта эксплуатации?
Быстрый рост объемов данных, для которых требуются все новые хранилища и все большая скорость их обработки, а значит ресурсы и средства.
Сергей Платонов, заместитель генерального директора RAIDIX, обратил внимание участников на быстрые темпы цифровизации, в своем выступлении он отметил: «Это проявляется в развитии потребности производств и бизнесов по считыванию, учету, систематизации различных данных, полученных с различных датчиков и других устройств». Также спикер указал на важность понимания, что быстро меняются паттерны создания данных (кто, когда и как данные создает), и паттерн обработки данных (lifecycle). Эксперт подчеркнул, что сейчас сложно предсказать, какие архитектуры нейросетей потребуются завтра, поэтому технологии идут к комбинированным многокомпонентным системам хранения и обработки данных.
Состояние бизнес-процессов на предприятиях крайне затрудняет эффективное внедрение технологии.
Ольга Минаева - директор по взаимодействию с государственными органами ABBYY Россия отметила, что зачастую основную проблему представляет не столько сами данные, сколько состояние бизнес-процессов на предприятиях, подчеркнув необходимость постоянной работы по актуализации бизнес-процессов и подстраиванию их под новые BigData технологии. Спикер отметила, что основываясь на данных исследования McKinsey “Fivemovestomakeduring a digitaltransformation” - 2019, только 15% проектов по цифровой трансформации признаны успешными. При этом основными барьерами при цифровизации процессов являются: сопротивление сотрудников, непонимание потенциальных выгод от внедрения, непрозрачность бизнес-процессов. Для эффективного внедрения ИИ тоже нужен ИИ, и это – ProcessIntelligence. Перед стартом проекта важно проанализировать бизнес-процесс и понять, как он устроен.
Смещение фокуса с вопросов хранения и безопасности данных на проблему необходимости их очистки, обработки, систематизации и использования для принятия бизнес-решений, а также роль человеческого фактора в решении этой задачи.
Елизавета Иванова - R&D директор группы компаний ЭГО Транслейтинг (многоцелевого лингвистического провайдера, разработчика специализированных программных решений по очистке данных для оптимизации работы переводческой отрасли) прокомментировала вопрос о том, как превратить DataLake в полезный систематизированный ресурс бизнеса?: «Не все данные нужно хранить, так как далеко не все данные являются ценными. Ценные данные – это собранные, очищенные и нормализованные данные. В 2020 году прогнозируется качественное смещение проблематики от хранения и безопасности к преобразованию, очистке данных. Узкое место ИИ – хорошо размеченные данные. Разметка – качественное преобразование, в процессе которого сырые данные дополняются метаданными и преобразуются в информацию. Разметка и очистка больших данных невозможна без участия человека (HITL), а разметчик – профессия будущего».
Дмитрий Аминов - директор по развитию компании IVideon, в свою очередь, отметил, что одними из ключевых вопросов остаются вопросы о том, что делать с огромными массивами получаемой ежедневно видеоинформации и как выбирать нужное для обработки и хранения для перехода к видеоаналитике для принятия решений.
Важность лингвистических технологий для BigData
Елизавета Иванова, ЭГО Транслейтинг подчеркнула, что 80% больших данных (структурированной и неструктурированной информации во всех отраслях объемом более 1 Тб) – это текстовые данные, и именно они представляют наибольшую ценность. Для работы с ними необходимы лингвисты, так как используются специальные алгоритмы обработки. NLP (Naturallanguageprocessing) - обработка естественного языка - одно из ключевых направлений ИИ по стратегическому трансформационному потенциалу. Объем рынка – 19 млрд.$ (2019), прогнозное увеличение к 2025 до 22 млрд.$.
Никита Шаблыков – коммерческий директор компании PROMT отметил, что налицо беспрецедентный рост объемов информации, которую нужно обрабатывать, ее источников, в том числе многоязычных, и требований к ее безопасности. Спикер рассказал про передовые решения PROMT в области искусственного интеллекта: PROMT NeuralTranslationServer (перевод текстов и документов) – систему, позволяющую в режиме офлайн работать с большими данными под нагрузкой и обеспечивающую высокую точность перевода со скоростью 2000 слов в секунду благодаря использованию нейронных сетей; а также PROMT Analyzer SDK (анализ текстов и документов) – систему извлечения, распознавания и обработки текстовых данных. По мнению эксперта, на сегодняшний день потребность в этом велика и грамотная обработка информации ведет к снижению рисков её утраты, сокращению сроков принятия основанных на ней решений, что обеспечивает реальный переход к SmartData.
Участники поделились практическим опытом внедрения технологии на основе BigData.
Илья Блаер отметил, что основная экспертиза FirstLineSoftware по применению технологии BigData находится в сфере финансового сектора и медицины, однако есть и опыт разработки пилотного проекта на промышленном производстве - была создана нейросеть, обеспечивающая соблюдение стандартов охраны труда на промышленном предприятии.
Вячеслав Самарин - директор направления IoT компании «СБКлауд» (входит в ГК «АйТеко») рассказал об опыте работы с технологиями BigData в торговле, с компаниями с распределенными офисами, а также с госорганами в разрезе создания «умных» социальных объектов. Основные запросы бизнеса в этих сегментах: диспетчеризация процессов и профильных проблем, диагностика сбоев, безопасность хранения товаров, смарт-маркетинг, HR-процессы, построение сквозных бизнес-процессов. По мнению эксперта, торговля не боится инноваций.
Михаил Никитенко, заместитель коммерческого директора АО «Кодекс» рассказал о системе управления требованиями «ТЕХЭКСПЕРТ» и привел пример внедрения системы в ПАО «КАМАЗ»: в 2019 году заключен договор о сотрудничестве с Казанским (Приволжским) федеральным университетом в рамках проекта по формированию и классификации требований к семейству автомобилей К5 торговой марки «КамАЗ». Ранее, в 2017 году с ПАО «ТРАНСНЕФТЬ» был заключен договор о создании системы управления нормативными документами, включающий модули формирования требований и анализа нормативных документов, на противоречие требований. Требования содержатся в нормативной документации, во внутренней документации предприятий, при этом, данные хранятся в различном виде и формате. Внедрение систем управления требованиями повышают эффективность производства и управления качеством продукции.
В завершение круглого стола модераторы отметили, что переход к SmartData - это современный технологический тренд. Данных и их источников становится все больше, поэтому необходимо это грамотно использовать. Переход к цифровой экономике и экономике данных требует всё больших интеллектуальных, временных, технических, технологических и денежных ресурсов. Вопрос работы с BigData и связанные вопросы внедрения искусственного интеллекта актуальны практически во всех отраслях экономики.