Microsoft представила ASSERT — открытый фреймворк для оценки поведения ИИ-моделей в конкретных приложениях.
ASSERT превращает описание желаемого поведения на естественном языке в структурированные тесты с оценкой результатов.
Пример: агент для работы с документами не должен отправлять письма внешним адресатам — ASSERT проверит соблюдение правил.
Инструмент заполняет пробел, когда общие оценки не учитывают специфику приложения. По словам Microsoft, оценка критична для доверия к ИИ.
Фреймворк можно использовать при разработке, после развёртывания и для постоянного мониторинга.

0 комментариев