Автоматическое сжатие чата
Если чат с агентом становится слишком большим, есть риск уткнуться в размер контекстного окна: качество работы модели снижается, а её цена и время работы растёт.
Автоматическое сжатие уменьшает историю, когда чат становится слишком большим. Сначала плагин использует встроенные правила и не делает дополнительный запрос к LLM. Если этого недостаточно и контекст всё равно переполняется, история отправляется в LLM на суммаризацию. Короткое резюме заменяет старую переписку, а последнее сообщение пользователя остается без изменений.
Вы можете настроить момент вызова автоматического сжатия и вызвать его вручную прямо из интерфейса чата, как показано на видео.