فراتر از پرامپت: ساخت محصولات هوشمند قابل‌اعتماد

سخت‌ترین بخش تحویل یک محصول AI خود مدل نیست — همه چیز اطراف آن است. این سیستمی است که اطراف هر قابلیت مبتنی بر Claude می‌سازم.

ارزیابی قبل از تطابق محصول-بازار

یک قابلیت جدید تا زمانی که مجموعه ارزیابی نداشته باشد به کاربران نمی‌رسد. حتی پنج نمونهٔ دستی بهتر از تحویل کور است. مجموعهٔ ارزیابی در یک CSV زندگی می‌کند، با هر تغییر پرامپت دوباره اجرا می‌شود و دلتاها در PR بررسی می‌شوند.

تلاش مجدد با محدودیت ساختاری

مدل‌ها گاهی خروجی نامعتبر می‌دهند. هرگز اجازه نمی‌دهم پاسخ بد به کاربر برسد. هر فراخوانی مدل را با موارد زیر می‌پوشانم:

اعتبارسنجی طرح (zod یا pydantic)
تلاش مجدد در صورت شکست با ضمیمهٔ خطای اولیه به پرامپت
سقف سخت سه تلاش، سپس قالب قطعی به‌عنوان جایگزین

گاردریل متناسب با تهدید

هر محصول نیاز به خط‌لولهٔ تعدیل محتوا ندارد. سؤال درست این است: «بدترین خروجی محتمل چیست و هزینهٔ عبور آن چقدر است؟» برای چت عمومی، فیلتر لازم است. برای ابزار داخلی با دوازده کاربر، نه.

مشاهده‌پذیری اختیاری نیست

ورودی، خروجی، تأخیر و هزینهٔ هر فراخوانی را ثبت کنید. ردها را با کاربر، قابلیت و نسخهٔ پرامپت برچسب بزنید. وقتی هفتهٔ ششم چیزی خراب شود، خواهید دانست.

ترتیبی که تحویل می‌دهم

پرامپت + استفاده از ابزار که کامل اجرا می‌شود
مجموعه ارزیابی + بررسی رگرسیون خودکار
تلاش‌های مجدد و جایگزین‌ها
مشاهده‌پذیری
گاردریل هزینه (سقف، هشدار)
سپس کاربران را دعوت کنید

ارزیابی قبل از تطابق محصول-بازار

تلاش مجدد با محدودیت ساختاری

اعتبارسنجی طرح (zod یا pydantic)

تلاش مجدد در صورت شکست با ضمیمهٔ خطای اولیه به پرامپت

سقف سخت سه تلاش، سپس قالب قطعی به‌عنوان جایگزین

گاردریل متناسب با تهدید

ترتیبی که تحویل می‌دهم

پرامپت + استفاده از ابزار که کامل اجرا می‌شود

مجموعه ارزیابی + بررسی رگرسیون خودکار

تلاش‌های مجدد و جایگزین‌ها

مشاهده‌پذیری

گاردریل هزینه (سقف، هشدار)

سپس کاربران را دعوت کنید