Перейти к основному содержимому

Подсчет токенов в Jay Copilot

Языковые модели, чтобы обрабатывать текст, разбивают его на небольшие части — токены. Количество и размер таких частей зависит от языка и модели. Этот процесс называется токенизация.

У каждой модели есть максимальное количество токенов, которое она может обработать за один запрос. Каждый запрос содержит: ваше сообщение, контекст и ответ модели.

Для всех приложений мы по умолчанию делим максимальное доступное количество токенов на две части:

  • 75% отводится на контекст и ваше сообщение. Они отправляются вместе.
  • 25% — на генерацию ответа.

Это разделение нужно, чтобы улучшить качество ответов. Таким образом модель может хранить достаточно воспоминаний о прошлом диалоге, при этом генерируя объемные ответы. В ходе тестов мы пришли к выводу, что такие пропорции являются оптимальными.

Особенности

Ассистент Jay умеет искать информацию в интернете. Он токенизирует все страницы, которые просмотрит во время поиска, это может заметно увеличить цену запроса.

Работа с файлами

Приложение может не обработать файл, даже если он помещается в контекст. Так происходит, потому что файл не может содержать в себе более 200 000 символов, даже если контекст позволяет обработать такой запрос.

Например, если файл содержит 250 000 символов (т. е. где-то 50 000 токенов), а у модели доступный контекст для запроса — 128 000 токенов, то приложение этот файл все равно обработать не сможет.

Расшифровка встреч

В приложении «Расшифровка встреч» максимальная длина ответа — 2 500 токенов, какая бы модель ни использовалась.

Приложения прямого доступа

Самостоятельно количество токенов на ответ и запрос вы можете поменять только у приложений прямого доступа.

Модели, умеющие рассуждать

Умеющие рассуждать модели (например, o1, o3, Deepseek r1) тратят на рассуждения и ответ заметно больше токенов, чем обычные модели. Указывайте для них большие значения максимального размера запроса и ответа.

Управление количеством токенов в запросе

Параметр Максимальное количество токенов в запросе задает:

  • Максимальное количество токенов истории диалога, которое будет отправляться вместе с запросом. Если контекст заполнен, то новые запросы заменяют в нем старые.

  • Доступный вам размер запроса. При отправке текст токенизируется. Максимальный размер вашего запроса в токенах не может превышать значение указанное в параметре Максимальное количество токенов в запросе, такой запрос вызовет ошибку.

Управление максимальным размером ответа

Параметр Максимальное количество токенов в ответе отвечает за максимальный возможный размер ответа приложения в токенах. Ответ оборвется, если превысит заданный лимит.