Skip to main content

Автоматическое сжатие чата

Если чат с агентом становится слишком большим, есть риск уткнуться в размер контекстного окна: качество работы модели снижается, а её цена и время работы растёт.

Автоматическое сжатие уменьшает историю, когда чат становится слишком большим. Сначала плагин использует встроенные правила и не делает дополнительный запрос к LLM. Если этого недостаточно и контекст всё равно переполняется, история отправляется в LLM на суммаризацию. Короткое резюме заменяет старую переписку, а последнее сообщение пользователя остается без изменений.

Вы можете настроить момент вызова автоматического сжатия и вызвать его вручную прямо из интерфейса чата, как показано на видео.