Раздел

Понимание изображений

Используйте Понимание изображений, когда пользователи присылают скриншоты, фото или другие картинки, и агент должен смотреть на реальное содержимое, а не угадывать только по тексту.

Когда открывать эту страницу

Когда вы хотите выполнить одну понятную задачу в теме «Понимание изображений» и сразу проверить результат.

Для кого

Владелец, Редактор

С чем вы уйдете

Завершенное действие и понятная проверка, что оно действительно сработало.

Управляется промптом

Именно вы задаете, когда агент должен анализировать изображение, а когда нет.

Вложения текущего сообщения

Самый надежный сценарий — изображение приходит вложением в том же пользовательском сообщении, где его просят проверить или ожидают получить.

Видно в usage

Запросы с изображениями тоже расходуют токены, поэтому rollout стоит сопровождать быстрой проверкой стоимости.

Когда эту возможность действительно стоит включать

Скриншоты и ошибки интерфейса

Полезно, когда пользователь показывает сломанную страницу, состояние приложения, экран оплаты или видимую ошибку вместо точного текстового описания.

Фото товара или документа

Полезно, когда support-flow зависит от того, что реально видно на картинке: упаковка, маркировка или сфотографированный документ.

Ожидаемое изображение по сценарию

Особенно полезно, когда бот сначала просит скриншот или фото, а следующее сообщение пользователя может содержать только изображение без текста.

Как включить это без лишнего риска

  1. Откройте настройки агента и найдите Image reading.
  2. Выберите policy под ваш сценарий: off, prompt-driven или always.
  3. Задайте в промпте точные правила: когда агент обязан смотреть изображение и какой результат вы от него ждете.
  4. Проверьте функцию на реальном JPG или PNG, приложенном в том же сообщении, что и вопрос, либо в ожидаемом следующем сообщении после просьбы бота прислать картинку.
  5. До запуска в живой поток оцените качество ответов и usage на тестовых диалогах.

Как выбрать policy для Image reading

PolicyКогда использоватьЧто происходит
offСодержимое изображения не должно влиять на ответ.Агент не анализирует картинку и отвечает только по тексту, KB и другим включенным инструментам.
prompt_rulesИзображение важно только в отдельных случаях.Решение принимает промпт, поэтому стоимость и случайные визуальные чтения проще держать под контролем.
alwaysКаждое прикрепленное изображение в этом сценарии нужно анализировать.Агент по умолчанию считает картинки из текущего сообщения частью запроса. Это имеет смысл только в сценариях, где изображения нужны почти всегда.

Какие prompt rules делают поведение предсказуемым

  • Прямо укажите, когда картинка обязательна для точного ответа: например, если пользователь спрашивает про скриншот, фото или видимую ошибку.
  • Опишите ожидаемый результат анализа: краткое описание, извлечение текста, диагностика проблемы или проверка соответствия.
  • Опишите поведение вне этих кейсов: например, отказаться от визуального анализа или попросить переслать нужный файл.
  • Если бот просит изображение как следующий шаг, зафиксируйте это в логике промпта, чтобы следующее вложение считалось ожидаемым input, а не случайным файлом.

Что должен реально отправлять пользователь

Самый надежный input — это само прикрепленное изображение и короткий текстовый вопрос вроде «какая ошибка на этом экране?» или «правильная ли это этикетка?».

Просто вставленная ссылка или имя файла в тексте — не то же самое, что реальное вложение. Перед rollout проверяйте именно тот канал, которым будут пользоваться ваши клиенты, а не полагайтесь на общие предположения.

О каких текущих ограничениях важно помнить

  • Лучше всего работают изображения, приложенные в текущем сообщении пользователя.
  • Для пользовательского rollout самыми безопасными форматами остаются JPG и PNG.
  • Если в диалоге есть только текст о файле, но нет самого прикрепленного изображения, агент не сможет надежно проанализировать визуальное содержимое.
  • До включения функции в загруженный production-flow учитывайте image tokens в cost review.

Замечание по стоимости

Понимание изображений добавляет стоимость поверх обычной текстовой генерации. Перед масштабированием на большой поток поддержки проверьте Стоимость токенов и живой usage.

Еще в этом разделе

Связанные страницы