Dincolo de prompt: produse AI fiabile

Cea mai grea parte a livrării unui produs AI nu e modelul — e tot ce-l înconjoară. Iată sistemul pe care îl pun în jurul fiecărei funcționalități pe Claude pe care o livrez.

Eval înainte de product-market fit

O funcționalitate nouă nu ajunge la utilizatori până nu are un set de eval. Chiar și cinci exemple curate manual bat livrarea oarbă. Setul de eval trăiește într-un CSV, e re-rulat la fiecare schimbare de prompt, iar deltele sunt revizuite în PR.

Retry cu constrângeri de schemă

Modelele returnează ocazional output malformat. Niciodată nu las un singur răspuns prost să ajungă la utilizator. Învelesc fiecare apel către model în:

Validare de schemă (zod sau pydantic)
Retry pe eșec de validare cu eroarea originală adăugată la prompt
Plafon dur de trei încercări; fallback la un șablon determinist

Guardrails potrivite cu amenințarea

Nu orice produs are nevoie de un pipeline de moderare a conținutului. Întrebarea corectă e: "Care e cel mai rău output plauzibil și care e costul să scape?" Pentru un chat public, ai nevoie de filtrare. Pentru o unealtă internă cu doisprezece utilizatori, nu.

Observabilitatea nu e opțională

Loghează fiecare input, output, latență și cost al modelului. Etichetează tracele cu user-ul, funcționalitatea și versiunea promptului. Când ceva nu merge bine în săptămâna a șasea, vei ști.

Ordinea în care livrez

Prompt + folosire de unelte care rulează end-to-end
Set de eval + verificare automată de regresie
Retry-uri și fallback-uri
Observabilitate
Guardrails de cost (plafoane, alerte)
Apoi invită utilizatorii

Sari peste pași și-i plătești mai târziu. Întotdeauna.