Подсчет токенов в Jay Copilot
Языковые модели, чтобы обрабатывать текст, разбивают его на небольшие части — токены. Количество и размер таких частей зависит от языка и модели. Этот процесс называется токенизация.
У каждой модели есть максимальное количество токенов, которое она может обработать за один запрос. Каждый запрос содержит: ваше сообщение, контекст и ответ модели.
Для всех приложений мы по умолчанию делим максимальное доступное количество токенов на две части:
- 75% отводится на контекст и ваше сообщение. Они отправляются вместе.
- 25% — на генерацию ответа.
Это разделение нужно, чтобы улучшить качество ответов. Таким образом модель может хранить достаточно воспоминаний о прошлом диалоге, при этом генерируя объемные ответы. В ходе тестов мы пришли к выводу, что такие пропорции являются оптимальными.
Особенности
Поиск в интернете
Ассистент Jay умеет искать информацию в интернете. Он токенизирует все страницы, которые просмотрит во время поиска, это может заметно увеличить цену запроса.
Работа с файлами
Приложение может не обработать файл, даже если он помещается в контекст. Так происходит, потому что файл не может содержать в себе более 200 000 символов, даже если контекст позволяет обработать такой запрос.
Например, если файл содержит 250 000 символов (т. е. где-то 50 000 токенов), а у модели доступный контекст для запроса — 128 000 токенов, то приложение этот файл все равно обработать не сможет.
Расшифровка встреч
В приложении «Расшифровка встреч» максимальная длина ответа — 2 500 токенов, какая бы модель ни использовалась.
Приложения прямого доступа
Самостоятельно количество токенов на ответ и запрос вы можете поменять только у приложений прямого доступа.
Умеющие рассуждать модели (например, o1
, o3
, Deepseek r1
) тратят на рассуждения и ответ заметно больше токенов, чем обычные модели.
Указывайте для них большие значения максимального размера запроса и ответа.
Управление количеством токенов в запросе
Параметр Максимальное количество токенов в запросе задает:
-
Максимальное количество токенов истории диалога, которое будет отправляться вместе с запросом. Если контекст заполнен, то новые запросы заменяют в нем старые.
-
Доступный вам размер запроса. При отправке текст токенизируется. Максимальный размер вашего запроса в токенах не может превышать значение указанное в параметре Максимальное количество токенов в запросе, такой запрос вызовет ошибку.
Управление максимальным размером ответа
Параметр Максимальное количество токенов в ответе отвечает за максимальный возможный размер ответа приложения в токенах. Ответ оборвется, если превысит заданный лимит.