Модели учатся видеть и слышать

Свежие модели с рождения работают с картинками, звуком и видео. Магия на демо есть, но на мелком тексте и точных координатах всё ещё промахи.

Текстом дело больше не ограничивается. Свежие модели с рождения умеют работать с картинками, звуком, видео и кодом разом. Всё это живёт у них в едином пространстве, а не в отдельных склеенных сетках. Отсюда сценарии, которые год назад выглядели фантастикой.

Что это даёт на практике

Покажи модели фото приборной панели, и она прочитает ошибку и подскажет, что делать. Скинь скриншот интерфейса, и получишь по нему код. Наведи камеру на полку в магазине, и модель разберёт этикетки и сравнит составы. Граница между «сфотографировал» и «спросил» стирается. Врач показывает модели снимок и просит обратить внимание на затемнение, дизайнер скидывает мокап и получает по нему вёрстку. Картинка становится таким же входом, как строка текста.

Со звуком та же история. Модель слушает совещание и выдаёт не голую расшифровку, а структуру: кто что решил, какие задачи повесили и на кого. Голос как интерфейс наконец-то заработал: живой разговор с перебиванием, а не скрипт «скажите один».

Где подводные камни

Гладко только на демо. Реальность капризнее. Модель уверенно ошибается на мелком тексте, путается на плотных таблицах и схемах, промахивается по точным координатам объектов на картинке. Спросишь «сколько машин на парковке» и можешь получить красивый, но неправильный ответ. Проверять её на числах и точных деталях приходится вручную, уверенный тон правоту не гарантирует.

Цена тоже кусается. Картинка или секунда видео разворачиваются в сотни, а то и тысячи токенов, и счёт за мультимодальный запрос выходит заметно выше текстового. Гонять видео через модель кадр за кадром выходит недёшево.

И всё же направление задано. Люди воспринимают мир всеми чувствами сразу, и модели двигаются туда же. Пока это ассистент, которому надо перепроверять глаза и уши на важном. Но планка поднимается каждый релиз, и задачи, где хватает одного взгляда, уходят машине одна за другой.

Модели учатся видеть и слышать

Что это даёт на практике

Где подводные камни

Миллион токенов в контексте и его пределы

Как большие модели учат маленькие