До сих пор агенты часто пытались выполнить задачу даже тогда, когда у них не было нужных инструментов (API) или контекста, что приводило к генерации мусорных ответов. Appier предлагает метрику оценки: перед тем как действовать, агент рассчитывает свою уверенность в успехе. Если скор низкий, модель прерывает выполнение и вызывает внешнюю функцию (tool call) или напрямую запрашивает помощь у разработчика. Это критический патч для Agentic AI, делающий поведение ботов предсказуемым и пригодным для продакшена в B2B-секторе.
Источник: Appier / arXiv / GitHub
ResearchAppierLLM CalibrationAgentic AIMachine Learning