Вопросы работы с Big Data и подготовки дата-сайентистов обсудили участники РИФ.Онлайн.
02 июля 2020 года в рамках РИФ.Онлайн состоялась дискуссия о применении больших данных и машинного обучения для задач бизнеса. Эксперты рассказали, для каких проектов стоит искать специалистов и внедрять решения Big Data, а в каких компаниях это может быть нерентабельно.
Модератором секции выступил Алексей Драль, CEO & Founder (BigData Team).
“Работа с большими данными — дорогостоящая вещь. Два пути: нанимать себе специалистов или находить на рынке готовые решения для своей индустрии. Наверное, малый бизнес не может позволить себе большие данные. Крупному бизнесу без этого никак.
Чтобы обучить распознавание речи, нужно взять большое количество голосовых данных клиентов. Миллионы таких аудиозаписей нужно взять и разметить руками. Крупные компании тяжело понимают, что строить такие модели внутри себя просто невозможно. Нужно сделать много акробатических кульбитов, чтобы сжать Big Data, либо размещать всё в облаке. Аппарата не хватает.
Мы чётко понимаем, что на рынке мало специалистов Data Science. Около 2500 специалистов. Половина из них работает в группе компаний Сбербанк. У многих нет экспертизы в ни в наборе специалистов, ни в постановке им задач. Мы открываем направление “AI-консалтинг”, — Отари Меликишвили, руководитель продуктового направления AI Cloud (SberCloud).
“Мы живём в Big Data. Мы её потребители и генераторы. Она нужна тем, кто принимает решения на основе данных. Это ритейл, банки. Те компании, которые делают это лучше всех, которые нанимают лучших дата-сайентистов, развиваются. Своевременное инвестирование в технологии позволят им сохранить доминирующее положение.
То, что мы делали тогда, было в основном самописным. Сейчас, думаю, есть фреймворки. Это всё более и более доступно.
Нашумевшая Prisma сначала обрабатывала всё на сервере. В конечном итоге они переписали нейросеть, чтобы перенести всё в приложение. Задачи ML должны быть коммерческие. Математика — это язык природы, и этим интересно заниматься”, — Виталий Дубинин, CEO & Founder (iD EAST).
“Big Data — это много данных, когда у вас много данных, то вам нужна эта технология. По поводу машинного обучения данные сами по себе просто груз, а извлечь из них можно многое.
У меня был кейс тоже про Data Science. Нам до SberCloud далеко, но в одной компании люди замахнулись на создание аналога Яндекс.Директа с продажей рекламных мест. Система решает, нужно ли показывать рекламу конкретному человеку. Выяснилось, что это как из пушки по воробьям бить и это для них нерентабельно. Это к вопросу о том, кто будет использовать полноценную Big Data.
У нас ML — это попытка сделать MVP, проверить гипотезу и разбираться, нужно это или не нужно. Специальные концепции мы не используем”, — Юрий Басалов, ведущий программист (DD Planet).
“Для меня Big Data — это столько данных, сколько головой не понять. Наши клиенты — малый и микробизнес. Мы можем на своей ступеньке анализировать, визуализировать и давать советы. Средний бизнес будет использовать платформы и внешние решения. Мелкие ребята используют результаты машинного обучения и Big Data.
Мы можем классифицировать потребителя, отнести его к целевой аудитории. Но это никак не коммерциализировать. У нас слишком мало информации, чтобы мы обогатили кого-то с помощью Big Data. Этот проект прикрылся, так как данные есть, но что с ними делать — непонятно.
Если кто-то хочет выбрать себе это в качестве профиля, то даже среднего уровня специалист может нормально устроиться. 90% запросов бизнеса — это проблемы, для которых Big Data и машинное обучение не являются таблетками. Может быть, если это разовая задача, лучше купить коробочное решение. Только в самом крайнем случае я бы брал инхаус”, — Иван Шкиря, генеральный директор Callibri.
Запись секции доступна:
на официальном сайте РИФ.Онлайн — https://2020.rif.ru/online/5786