Evaluointi
Systemaattinen agentin suorituskyvyn testaus: tarkkuus, turvallisuus, luotettavuus.
Miksi tällä on merkitystä
Et ottaisi ohjelmistoa käyttöön ilman testejä. Evaluoinnit ovat tekoälyagenttien testisarja.
Käytännössä
QA Judge -aliagenttiimme ajaa booleaniset hyväksytty/hylätty-kriteerit jokaista tarinamme vaatimusta vasten.