Google обучает ИИ «видеть» и «слышать» одновременно

Вы наверняка слышали о системах ИИ-трансформеров, таких как GPT-3. Их главная задача состоит в том, что они обрабатывают и категоризируют данные из определенного вида медиапотока.

Сейчас при необходимости проанализировать данные из видео потребуется несколько моделей ИИ, работающих одновременно.

Нужна модель, обученная на видео, и другая — обученная на аудиоклипах. Дело в том, что для обработки этих каналов требуются разные алгоритмы. Отметим, что уши и глаза человека являются совершенно разными, хотя и взаимосвязанными системами.

В своей статье исследователи отмечают:

«Несмотря на последние достижения в различных областях и задачах, современными методами можно обучить только отдельные модели с различными параметрами для каждой задачи. В данной работе мы представляем простой, но эффективный метод обучения единой унифицированной модели, который позволяет достичь инновационных результатов в классификации изображений, видео и аудио».

Важно, что команде удалось не просто создать мультимодальную систему, способную одновременно решать связанные задачи, но и превзойти существующие модели, которые предназначены для одной задачи.

Расскажи, как цифровая трансформация изменила твой бизнес

Стань лауреатом RB Digital Awards 2022

Исследователи назвали свою систему PolyVit.

В статье, посвященной разработке, отмечается, что одновременное обучение различным задачам на одной модальности позволило повысить точность выполнения каждой отдельной задачи и достичь самых современных результатов на пяти стандартных датасетах для классификации видео и аудио.

Кроме этого, благодаря одновременному обучению PolyViT на нескольких модальностях и задачах становится еще более эффективной по параметрам и обучается на выборках, которые обобщаются по разным областям.

Более того, исследователям удалось продемонстрировать, что реализовать одновременное обучение просто и практично, поскольку не нужно настраивать гиперпараметры для каждой комбинации датасетов, а можно просто адаптировать параметры, полученные при стандартном обучении на одной задаче.

Этот шаг может стать очень важным для мира бизнеса. Одна из самых больших проблем, с которой сталкиваются компании, стремящиеся внедрить стеки ИИ, — это совместимость. Существуют буквально сотни решений для машинного обучения, но нет никаких гарантий, что они будут работать вместе.

В результате появляются два подхода к внедрению алгоритмов:

монопольный — когда руководители по технологиям вынуждены выбирать одного поставщика ради совместимости, смешанный — из-за проблем совместимости он приносят больше головной боли, чем того стоит.

Парадигма, при которой мультимодальные системы станут нормой, станет спасением для измученных системных администраторов.

Конечно, это раннее исследование, опубликованное как препринт, поэтому нет оснований полагать, что в ближайшее время мы увидим его широкое применение.Но это большой шаг к созданию универсальной системы классификации

Источник.

Искусственный интеллект Google GPT-3 Машинное обучение Технологии

Источник: rb.ru

Club business

Грамотное выражение чувств

Как понять личная цель или нет

Эльдар — значение имени

Назар — значение имени

Платон — значение имени

Вещие сны

Построй свое будущее сегодня

Как начать действовать

Личная цель — правила выбора

Google обучает ИИ «видеть» и «слышать» одновременно — вот почему это важно

Добавить комментарий Отменить ответ

Российские акции смогли показать рост несмотря на сильный внешний негатив