Dincolo de prompt: produse AI fiabile
De la prototip la producție cu evaluare, retry și guardrails.
Cea mai grea parte a livrării unui produs AI nu e modelul — e tot ce-l înconjoară. Iată sistemul pe care îl pun în jurul fiecărei funcționalități pe Claude pe care o livrez.
Eval înainte de product-market fit
O funcționalitate nouă nu ajunge la utilizatori până nu are un set de eval. Chiar și cinci exemple curate manual bat livrarea oarbă. Setul de eval trăiește într-un CSV, e re-rulat la fiecare schimbare de prompt, iar deltele sunt revizuite în PR.
Retry cu constrângeri de schemă
Modelele returnează ocazional output malformat. Niciodată nu las un singur răspuns prost să ajungă la utilizator. Învelesc fiecare apel către model în:
- Validare de schemă (zod sau pydantic)
- Retry pe eșec de validare cu eroarea originală adăugată la prompt
- Plafon dur de trei încercări; fallback la un șablon determinist
Guardrails potrivite cu amenințarea
Nu orice produs are nevoie de un pipeline de moderare a conținutului. Întrebarea corectă e: "Care e cel mai rău output plauzibil și care e costul să scape?" Pentru un chat public, ai nevoie de filtrare. Pentru o unealtă internă cu doisprezece utilizatori, nu.
Observabilitatea nu e opțională
Loghează fiecare input, output, latență și cost al modelului. Etichetează tracele cu user-ul, funcționalitatea și versiunea promptului. Când ceva nu merge bine în săptămâna a șasea, vei ști.
Ordinea în care livrez
- Prompt + folosire de unelte care rulează end-to-end
- Set de eval + verificare automată de regresie
- Retry-uri și fallback-uri
- Observabilitate
- Guardrails de cost (plafoane, alerte)
- Apoi invită utilizatorii
Sari peste pași și-i plătești mai târziu. Întotdeauna.
