فراتر از پرامپت: ساخت محصولات هوشمند قابلاعتماد
از نمونه اولیه تا تولید با ارزیابی، تلاش مجدد و گاردریل.
سختترین بخش تحویل یک محصول AI خود مدل نیست — همه چیز اطراف آن است. این سیستمی است که اطراف هر قابلیت مبتنی بر Claude میسازم.
ارزیابی قبل از تطابق محصول-بازار
یک قابلیت جدید تا زمانی که مجموعه ارزیابی نداشته باشد به کاربران نمیرسد. حتی پنج نمونهٔ دستی بهتر از تحویل کور است. مجموعهٔ ارزیابی در یک CSV زندگی میکند، با هر تغییر پرامپت دوباره اجرا میشود و دلتاها در PR بررسی میشوند.
تلاش مجدد با محدودیت ساختاری
مدلها گاهی خروجی نامعتبر میدهند. هرگز اجازه نمیدهم پاسخ بد به کاربر برسد. هر فراخوانی مدل را با موارد زیر میپوشانم:
- اعتبارسنجی طرح (zod یا pydantic)
- تلاش مجدد در صورت شکست با ضمیمهٔ خطای اولیه به پرامپت
- سقف سخت سه تلاش، سپس قالب قطعی بهعنوان جایگزین
گاردریل متناسب با تهدید
هر محصول نیاز به خطلولهٔ تعدیل محتوا ندارد. سؤال درست این است: «بدترین خروجی محتمل چیست و هزینهٔ عبور آن چقدر است؟» برای چت عمومی، فیلتر لازم است. برای ابزار داخلی با دوازده کاربر، نه.
مشاهدهپذیری اختیاری نیست
ورودی، خروجی، تأخیر و هزینهٔ هر فراخوانی را ثبت کنید. ردها را با کاربر، قابلیت و نسخهٔ پرامپت برچسب بزنید. وقتی هفتهٔ ششم چیزی خراب شود، خواهید دانست.
ترتیبی که تحویل میدهم
- پرامپت + استفاده از ابزار که کامل اجرا میشود
- مجموعه ارزیابی + بررسی رگرسیون خودکار
- تلاشهای مجدد و جایگزینها
- مشاهدهپذیری
- گاردریل هزینه (سقف، هشدار)
- سپس کاربران را دعوت کنید
