• פלטפורמת החיבורים
  • מציאת קו-פאונדר/ית
  • חיבור למשקיעים/ות
  • כל החיבורים
  • דיזיין פרטנרס
  • מאגר המומחים
  • שמורים
עולם התוכן פלטפורמת החיבורים
  • יזמים/ות
    תוכן למסע היזמי
    תוכן למסע היזמי
    • יוצאים לדרך? התחילו כאן
    • כל מה שחשוב לדעת על גיוס כסף
    • גיוס עובדים ראשונים
    • איך בונים מוצר ראשוני (mvp)
    תוכן לפי שלבי הסטארטאפ
    תוכן לפי שלבי הסטארטאפ
    • Ideation - גיבוש הרעיון לסטארטאפ
    • Pre-seed - פיתוח רעיון ראשוני למוצר
    • Seed - ולידציה, לקוחות ראשונים וגיוס כסף
    • Early stage - שיווק, מכירות ו-PMF
    • תוכן לשלב Growth stage
    • תוכן לשלבי Scale/ipo
    משאבים ליזמים/ות
    משאבים ליזמים/ות
    • מערכת למציאת קו-פאונדרים
    • חיבור לחברות דיזיין פרטנרס
    • מערכת לחיבור עם משקיעים
    • פלטפורמה לגיוס עובדים ראשונים
    • טמפלטים משפטיים
    • טמפלטיים לניהול פיננסי
    • טמפלטים לניהול עובדים
  • עובדים/ות בהייטק
    תכנים לעובדי ועובדות הייטק לפי תחום
    תכנים לעובדי ועובדות הייטק לפי תחום
    • הכל על מרקטינג
    • תוכן על AI
    • ניהול מוצר
    • HR, גיוס ותרבות ארגונית
    • ניהול עובדים
    • תוכן למפתחים/ות
    משאבים לעובדים/ות
    משאבים לעובדים/ות
    • מאגר משרות בסטארטאפים
    • טמפלטים לניהול מוצר
    • טמפלטים למנהלי צוותים
    • טמפלטים למנהלי שיווק
    עולם החיבורים
    עולם החיבורים
    • התחברו לאחרים ואחרות באקוסיסטם
    • התייעצו או הציעו עזרה לאחרים
    • הצטרפות כקו-פאונדר/ית בסטארטאפ
  • אירועים
    אירועים קרובים
    אירועים קרובים
    • The Offsite - Soft Skills
    • אירוע האונליין The offsite: Soft skills
    • Building in public - איך עושים את זה נכון?
    • על שימוש באייג׳נטים כדי לרוץ מהר ולהישאר lean
    • וייב קודינג ל-לא טכנולוגיים
    • Pitch Back עם דונה גריפית׳
    • Fundraising Masterclass עם גיל בן ארצי
    • כל האירועים
    אירועי שולחנות עגולים
    אירועי שולחנות עגולים
    • לכל השולחנות העגולים
    • ליצירת שולחן עגול
    אירועים קודמים
    אירועים קודמים
    • איך בונים תקציב? סדנא ליזמים.ות
    • איך לייצר מכירות מלידים קרים?
    • Forming Your Startup in the Age of AI
    • כלי AI למנהלי ומנהלות מוצר
    • איך לנהל תהליך גיוס חכם
    • כלי AI למנהלים
    • איך לאפטם מרקטינג עם AI
    • איך למונייד עושה שיווק בלי תקציבים גבוהים
    • יסודות ב-Go To Market
    • לכל האירועים הקודמים
  • הקהילה
    קהילת הפייסבוק טופס הצטרפות לקהילה
    תכנית המנטורינג
    תכנית המנטורינג
    • הצטרפות לתכנית המנטורינג
    תתי הקהילות שלנו
    תתי הקהילות שלנו
    • הצטרפו לתתי הקהילות
  • תוכן
    כל התכנים
    כל התכנים
    • כל התכנים
    פודקאסט
    פודקאסט
    • Startup for Startup
    • פרודקטיבי - ניהול מוצר
    • פלייליסטים
    • הפודקאסט באנגלית
    • מטריקות לחברות SaaS
    • צעדים ראשונים
    • סדרת אלטרנטיב
    • גיוס הכסף הראשון
    • סדרת הנפקה
    • השיעורים שלמדנו בוול סטריט
    • פרפורמנס מרקטינג
    • SaaS בסקייל
    • פרקים על מוצר
    • פרקים על פיתוח
    • פרקים על שיווק
    • פרקים על ניהול
    • כל הפרקים
    הבלוג
    הבלוג
    • גיוס כסף
    • מוצר
    • AI
    • משאבי אנוש
    • שיווק
    • ניהול
    • שיחות עם יזמים
    • תובנות מהדרך
    • כל הנושאים
    וידאו
    וידאו
    • שיעור אחד שלמדתי
    • משקיעים משתפים
    • הרצאות מאירועים
    • כל הסרטונים
    קורסים
    קורסים
    • קורס מכירות ליזמים.ות
    • קורס ניהול
    • חיפוש עבודה
    • גיוס כסף בשלבים מוקדמים
    • יסודות בניהול מוצר
    • פרפורמנס מרקטינג
    • יסודות ה-SaaS והמדידה
    • צעדים ראשונים בהקמת סטארטאפ
    • הצד המשפטי בהקמת סטארטאפ
    • כל הקורסים
    טמפלטים
    טמפלטים
    • שיווק
    • משפטי
    • מוצר
    • טמפלטים
  • Network
    מציאת קו-פאונדרים
    מציאת קו-פאונדרים
    • מצאו קו-פאונדר/ית
    גיוס כסף
    גיוס כסף
    • מצאו השקעה או חפשו במי להשקיע
    מאגר המומחים
    מאגר המומחים
    • חפשו עזרה
    דיזיין פרטנרס
    דיזיין פרטנרס
    • כל החברות
    • להצטרפות כדיזיין פרטנר
    מאגר הסטארטאפים
    מאגר הסטארטאפים
    • לכל הסטארטאפים
    • סטארטאפים בשלב Pre-seed/seed
    • בוטסטארפ
    • סטארטאפים בתעשיית ה-AI
    • סטארטאפים B2B
    • הצטרפות למאגר
  • משרות בסטארטאפים
    משרות פתוחות בסטארטאפים
    משרות פתוחות בסטארטאפים
    • לכל המשרות
    • פרסום משרה חדשה
  • עלינו
    על Startup for Startup
    על Startup for Startup
    • מי אנחנו
    • למה אנחנו עושים את זה?
    • 5 עקרונות בבנייה וניהול של קהילה
    • איך עושים פודקאסט
    תיבת ההצעות
    תיבת ההצעות
    • תשאלו אותנו הכל
    • שלחו לנו בלוג
    • הציעו הצעה בתיבת ההצעות
    • כל הדרכים לפנות אלינו
    הצטרפו לניוזלטרים שלנו
    הצטרפו לניוזלטרים שלנו
    • הניוזלטר של Startup for Startup
    • ניוזלטר ליזמים ויזמיות בשלבים ראשוניים
    • ניוזלטר למחפשי ומחפשות עבודה
    • ניוזלטר למנהלים/ות
  • מאגר המומחים
  • מציאת קו-פאונדר/ית
  • חיבור למשקיעים/ות
  • כל החיבורים
  • דיזיין פרטנרס
  • שמורים
עולם התוכן פלטפורמת החיבורים
user avatar
    • IL
      • WorldWide
  • logo
    • פלטפורמת החיבורים
    • מציאת קו-פאונדר/ית
    • חיבור למשקיעים/ות
    • כל החיבורים
    • דיזיין פרטנרס
    • מאגר המומחים
    • שמורים
    logo
    עולם התוכן פלטפורמת החיבורים
    • יזמים/ות
      תוכן למסע היזמי
      תוכן למסע היזמי
      • יוצאים לדרך? התחילו כאן
      • כל מה שחשוב לדעת על גיוס כסף
      • גיוס עובדים ראשונים
      • איך בונים מוצר ראשוני (mvp)
      תוכן לפי שלבי הסטארטאפ
      תוכן לפי שלבי הסטארטאפ
      • Ideation - גיבוש הרעיון לסטארטאפ
      • Pre-seed - פיתוח רעיון ראשוני למוצר
      • Seed - ולידציה, לקוחות ראשונים וגיוס כסף
      • Early stage - שיווק, מכירות ו-PMF
      • תוכן לשלב Growth stage
      • תוכן לשלבי Scale/ipo
      משאבים ליזמים/ות
      משאבים ליזמים/ות
      • מערכת למציאת קו-פאונדרים
      • חיבור לחברות דיזיין פרטנרס
      • מערכת לחיבור עם משקיעים
      • פלטפורמה לגיוס עובדים ראשונים
      • טמפלטים משפטיים
      • טמפלטיים לניהול פיננסי
      • טמפלטים לניהול עובדים
    • עובדים/ות בהייטק
      תכנים לעובדי ועובדות הייטק לפי תחום
      תכנים לעובדי ועובדות הייטק לפי תחום
      • הכל על מרקטינג
      • תוכן על AI
      • ניהול מוצר
      • HR, גיוס ותרבות ארגונית
      • ניהול עובדים
      • תוכן למפתחים/ות
      משאבים לעובדים/ות
      משאבים לעובדים/ות
      • מאגר משרות בסטארטאפים
      • טמפלטים לניהול מוצר
      • טמפלטים למנהלי צוותים
      • טמפלטים למנהלי שיווק
      עולם החיבורים
      עולם החיבורים
      • התחברו לאחרים ואחרות באקוסיסטם
      • התייעצו או הציעו עזרה לאחרים
      • הצטרפות כקו-פאונדר/ית בסטארטאפ
    • אירועים
      אירועים קרובים
      אירועים קרובים
      • The Offsite - Soft Skills
      • אירוע האונליין The offsite: Soft skills
      • Building in public - איך עושים את זה נכון?
      • על שימוש באייג׳נטים כדי לרוץ מהר ולהישאר lean
      • וייב קודינג ל-לא טכנולוגיים
      • Pitch Back עם דונה גריפית׳
      • Fundraising Masterclass עם גיל בן ארצי
      • כל האירועים
      אירועי שולחנות עגולים
      אירועי שולחנות עגולים
      • לכל השולחנות העגולים
      • ליצירת שולחן עגול
      אירועים קודמים
      אירועים קודמים
      • איך בונים תקציב? סדנא ליזמים.ות
      • איך לייצר מכירות מלידים קרים?
      • Forming Your Startup in the Age of AI
      • כלי AI למנהלי ומנהלות מוצר
      • איך לנהל תהליך גיוס חכם
      • כלי AI למנהלים
      • איך לאפטם מרקטינג עם AI
      • איך למונייד עושה שיווק בלי תקציבים גבוהים
      • יסודות ב-Go To Market
      • לכל האירועים הקודמים
    • הקהילה
      קהילת הפייסבוק טופס הצטרפות לקהילה
      תכנית המנטורינג
      תכנית המנטורינג
      • הצטרפות לתכנית המנטורינג
      תתי הקהילות שלנו
      תתי הקהילות שלנו
      • הצטרפו לתתי הקהילות
    • תוכן
      כל התכנים
      כל התכנים
      • כל התכנים
      פודקאסט
      פודקאסט
      • Startup for Startup
      • פרודקטיבי - ניהול מוצר
      • פלייליסטים
      • הפודקאסט באנגלית
      • מטריקות לחברות SaaS
      • צעדים ראשונים
      • סדרת אלטרנטיב
      • גיוס הכסף הראשון
      • סדרת הנפקה
      • השיעורים שלמדנו בוול סטריט
      • פרפורמנס מרקטינג
      • SaaS בסקייל
      • פרקים על מוצר
      • פרקים על פיתוח
      • פרקים על שיווק
      • פרקים על ניהול
      • כל הפרקים
      הבלוג
      הבלוג
      • גיוס כסף
      • מוצר
      • AI
      • משאבי אנוש
      • שיווק
      • ניהול
      • שיחות עם יזמים
      • תובנות מהדרך
      • כל הנושאים
      וידאו
      וידאו
      • שיעור אחד שלמדתי
      • משקיעים משתפים
      • הרצאות מאירועים
      • כל הסרטונים
      קורסים
      קורסים
      • קורס מכירות ליזמים.ות
      • קורס ניהול
      • חיפוש עבודה
      • גיוס כסף בשלבים מוקדמים
      • יסודות בניהול מוצר
      • פרפורמנס מרקטינג
      • יסודות ה-SaaS והמדידה
      • צעדים ראשונים בהקמת סטארטאפ
      • הצד המשפטי בהקמת סטארטאפ
      • כל הקורסים
      טמפלטים
      טמפלטים
      • שיווק
      • משפטי
      • מוצר
      • טמפלטים
    • Network
      מציאת קו-פאונדרים
      מציאת קו-פאונדרים
      • מצאו קו-פאונדר/ית
      גיוס כסף
      גיוס כסף
      • מצאו השקעה או חפשו במי להשקיע
      מאגר המומחים
      מאגר המומחים
      • חפשו עזרה
      דיזיין פרטנרס
      דיזיין פרטנרס
      • כל החברות
      • להצטרפות כדיזיין פרטנר
      מאגר הסטארטאפים
      מאגר הסטארטאפים
      • לכל הסטארטאפים
      • סטארטאפים בשלב Pre-seed/seed
      • בוטסטארפ
      • סטארטאפים בתעשיית ה-AI
      • סטארטאפים B2B
      • הצטרפות למאגר
    • משרות בסטארטאפים
      משרות פתוחות בסטארטאפים
      משרות פתוחות בסטארטאפים
      • לכל המשרות
      • פרסום משרה חדשה
    • עלינו
      על Startup for Startup
      על Startup for Startup
      • מי אנחנו
      • למה אנחנו עושים את זה?
      • 5 עקרונות בבנייה וניהול של קהילה
      • איך עושים פודקאסט
      תיבת ההצעות
      תיבת ההצעות
      • תשאלו אותנו הכל
      • שלחו לנו בלוג
      • הציעו הצעה בתיבת ההצעות
      • כל הדרכים לפנות אלינו
      הצטרפו לניוזלטרים שלנו
      הצטרפו לניוזלטרים שלנו
      • הניוזלטר של Startup for Startup
      • ניוזלטר ליזמים ויזמיות בשלבים ראשוניים
      • ניוזלטר למחפשי ומחפשות עבודה
      • ניוזלטר למנהלים/ות
    • הפרופיל שלי
      פלטפורמת החיבורים מציאת קו-פאונדר/ית חיבור למשקיעים/ות כל החיבורים מאגר המומחים מאגר המומחים שמורים עריכת פרופיל
    הצטרפו לאירוע השנתי שלנו The Offsite - Soft Skills
    להרשמה
    בית / תוכן / בלוג / AI evals: תפקידו החדש של מנהל המוצר?
    AI creates tools modern innovation Image of the brain in a light bulb with circuit boards. Concept of future global connectivity innovations to enable access to information and online networks.

    היא-לי נוי ,

    Director of Product, SysAid 

    AI evals: תפקידו החדש של מנהל המוצר?

    2025-04-06

    •

    5 דקות קריאה

    AI VC גיוס כספים גיוס כספים מוצר ניהול תקציב

    בשנת 2019, עולם הקולנוע סער סביב "קפטן מארוול". עוד לפני שהסרט יצא לבתי הקולנוע, אתר דירוג הסרטים - Rotten Tomatoes הפך לזירה של קרב בין מבקרים מקצועיים לבין משתמשים אנונימיים. גל של ביקורות שליליות הופיע באתר, כשרובם הגדול כלל לא צפה בסרט. אולפני מארוול היו המומים. שובר קופות ענק היה תחת מתקפת reviews ממוקדת של קהל שאפילו לא ראה אותו עדיין. 

    בעקבות המשבר, ב Rotten Tomatoes הבינו שיש כאן בעיית מדידה והחליטו לעשות שינוי מוצרי תקדימי. 

    הם הדגישו את הפער בין ציוני המבקרים לציון הקהל, והוסיפו מדדים חדשים להערכת הסרטים. אחרי שהרשתות החברתיות עברו לשערוריה הבאה משהו מהאירוע הזה נשאר איתנו – הכוח ההרסני של אי מדידה, או גרוע מכך - מדידה לא איכותית שעלולה לייצר תמונת מצב שגויה לחלוטין.   

    עכשיו דמיינו שהמוצר החדש והמבריק שלכם עולה לאוויר לראשונה, ובמקום לספק תשובות חכמות ומדויקות – הוא ממציא עובדות, מתקשר בשפה זרה למשתמש או סתם שולח תשובה גנרית כמו תקליט שבור. את התרגשות העליה לפרודקשן מחליפה חרדה עמוקה שמא הבאתם לעולם פיצ׳ר מיותר וחסר ערך. האמת היא שיש סיבה טובה לחשוש. אנחנו בעיצומו של צונאמי AI – מודלי שפה מציפים אותנו בשלל תכנים, חלקם גאוניים וחלקם, איך לומר, פחות. 

    אז איך אנחנו יכולים לוודא שהמודל שלנו "מתנהג יפה" בפרודקשן לאורך זמן?

     

    מהם בעצם LLM Evaluations (או בקיצור: LLM-Evals)?

    במוצרים מבוססי מודלי שפה, הערך למשתמש תלוי באופן ישיר באיכות הפלט (התשובה) שהמודל מספק. הבעיה היא שבשונה ממודלים קלאסיים של Machine Learning, כאן לא תמיד יש "תשובה אחת נכונה". לפעמים נוסחים שונים של הפלט יכולים להיות מצויינים באותה מידה. 

    אדם מומחה תוכן (Subject Matter Expert) כנראה יבדוק האם התשובה שימושית בקונטקסט שבו המשתמש נמצא, האם היא מדויקת  מבחינה עובדתית, האם היא כתובה בטון וסגנון מתאים לתחום ולפרסונה ועוד. 

    אנחנו זקוקים למנגנון הערכה גמיש, שיודע לומר לנו אם פלט המודל מספיק טוב; אם הסיכום שהמודל יצר באמת קולע, ואם המידע שהצ׳אטבוט שלנו מציג מדויק ולא מטעה. וזה לא טריוויאלי כי האיכות של הפלט מושפעת מפרמטרים רבים, למשל:

    עד כמה התשובה בהירה ושוטפת?

    האם היא נכונה עובדתית (truthfulness)?

    האם היא שומרת על טון מתאים למשתמש (למשל, שירותי ואדיב)?

    כמה היא עלולה להיות רעילה (toxicity) או בעלת הטיות לא רצויות (bias)?

    LLM-Evals, אם כן, היא קבוצה של כלים ושיטות להערכה אוטומטית (יחסית) של איכות התשובות שמודלי שפה מייצרים – בלי שנצטרך לגייס צוות ענק של מומחי תוכן שייתייגו את הדאטה ויעריכו כל תשובה ותשובה. בפוסט הזה, אתמקד בשיטת הערכה פופולארית שנקראת ״LLM-as-a-Judge" שבה נשלח הטקסט המג׳ונרט למודל שפה נוסף ששופט את טיבו (נקרא לו בפוסט הזה ״מודל שופט״). השיטה הזו מאפשרת לנו -מצד אחד- ליהנות מהסקיילביליות שנדרשת בפרודקשן, ומאידך לשלב איכויות שיפוט של מומחי תוכן כשהערכה גנרית לא מספיקה. 

     

    ׳LLM-evals are the new ‘Secret Sauce 

    אז למה llm-evals פתאום מקבלים תהודה? אם לפני כמה שנים היינו מדברים על יתרון תחרותי המתבטא בקוד, היום היכולת "לייצר קוד" נמצאת בידיים של כולם. Everything is programmable כפי שטבע דארמש שאה, מייסד Hubspot. 

     אפילו הדאטה האירגוני שעד לא מזמן נחשב ל-IP חזק, גם הוא מתחיל לאבד מעוצמתו בתור חפיר הגנתי יחיד' כשהיכולת לייצר דאטה סינטטי איכותית לטובת ׳לימוד׳ המודל נהיית מספקת דיה.

    אם כן, איך מזהים סטארטאפים מבטיחים בעידן שבו הכל אפשרי? משקיעים כמו האקסלרטור המצליח Y Combinator שיצאו ממנו חברות כמו airbnb ו- Stripe  בוחנים חוסן של סטאראפ על סמך תשתית הAI evaluations שבנה, כאינדיקציה חזקה לנבדלות בעידן שבו זול וקל לבנות בן לילה מוצר AI מתחרה. מה שמבדל באמת חברת מוצר אחת ממשנתה הוא היכולת שלנו להעריך ולשפר את איכות התשובות שמודלי השפה מספקים, ולוודא שהן עונות על הצורך המדויק של המשתמש. 

     

    LLM-evals: במגרש של מי זה יושב?

    בעבר, איכות הפיצ׳ר הייתה משוייכת אוטומטית לאנשי הפיתוח וה-QA – הרי בסוף מדובר בקוד. אם פעם יכולנו להסתפק בבדיקות QA וקוד תקין, היום כמעט 100% מהערך של פיצ׳רים מבוססי LLM תלוי באיכויות הטקסטואלית שמייצר המודל. ולכן, הגדרת ה-Acceptance Criteria והסטנדרטים לאיכות המודל – ובעצם קביעה של מה נחשב "טוב" בעיני המשתמש – הופכת לאחריות מנהלי המוצר.

     אנחנו שומעים את מובילי המוצר של חברות כמו OpenAI ו-Anthropic מדברים על AI Evals כחלק מרכזי בתפקיד החדש של מנהלי המוצר. למעשה, האחריות על האיכות זולגת מהמפתחים ומהבודקים אל מנהלי המוצר. בעידן הנוכחי, שבו גם המתחרים משתמשים במודלים דומים, הערך האמיתי יגיע מפתרונות שמותאמים לעולם התוכן וליוזקייס הרלוונטי ביותר. כאן בדיוק נכנסת המומחיות של מנהלי המוצר, שמכירים לעומק את הפרסונה, התהליכים העסקיים והצרכים בשטח – ומסוגלים לבנות את מערך ה-Evals המדויק ביותר, ולהבטיח שהפלט באמת מועיל למשתמש. אנשי המוצר הופכים להיות שומרי הסף של תוצר המודל, ואחראים שהמוצר אכן מספק ערך אמיתי במקום סתם לייצר טקסט לא שימושי (או גרוע מכך, מטעה ומזיק).

     

    אוקי, אז איך זה עובד?

    הכלי המרכזי שלנו הוא ה-Golden Dataset – זהו מעין בנצ'מרק שמשמש כנקודת ייחוס להערכה של פלט המודל. ה-Golden Dataset מכיל תסריטים שמדמים את הקלט (input) שנשלח למודל הראשי, את הפלט שהוא מחזיר (output) ואת הציון שהפלט מקבל. למשל, במקרה של מוצר צ׳אטבוט, נכניס דוגמאות שמייצגות שאילתות של המשתמשים. עבור כל שאילתא ב-Golden Dataset נגדיר תשובה ונעריך אותה על סמך הקריטריונים שהגדרנו. ה-Golden Dataset משמש לנו כמצפן: הוא מייצג את "האמת" או נקודת הייחוס (Ground Truth) שלפיה המודל השופט אמור לקבוע אם פלט מסוים הוא טוב או לא. ולכן, נרצה לספק למודל השופט מגוון רחב של דוגמאות טובות ורעות.

     ברגע שאנחנו יודעים איך נבדוק אם משהו טוב או לא טוב, אנחנו עוברים לשלב הבא – בניית ה-Eval Prompt. אלו הם בעצם "חוקי המשחק" שאנחנו נותנים למודל השופט על מנת להנחות אותו כיצד לנתח את הדוגמאות ולהעריך לפי הקריטריונים שהגדרנו.

    ככל שיש יותר פרמטרים ויותר מורכבות, כך ייתכן שנזדקק ל-Eval Prompt מפורט יותר, או לכמה Prompts שונים. כאן נכנסים לתמונה גם סוגי ה"שופטים" שעומדים לרשותנו:

    שופט השוואתי: משווה בין שני פלטים ובוחר מי טוב יותר (נהדר להשוואה בין שתי גרסאות שונות של הפרומפט הראשי של הפיצ׳ר או להשוואה בין מודלים שונים).

    שופט לפי קריטריונים גנריים: מודד בהירות (Clarity), טון (Tone), מידת אריכות (Verbosity) ועוד. אידיאלי למקרים שבהם יש שורה של מאפיינים גנריים ואובייקטיביים שמאפיינים תשובה "איכותית".

    שופט קונטקסטואלי: בודק תשובה אל מול "אמת מוחלטת" שמוזרקת כחלק מהקונטקסט (למשל, שעות הפתיחה של סניף x). בדוגמה הזו, אם ground truth הוא "פתוחים א-ה בין 8:00 ל-15:00", שופט קונטקסטואלי יבדוק אם התשובה המדוברת תואמת את המידע המדויק.

    המטרה שלנו היא לא רק להרשים בדמו הראשוני, אלא להבטיח שהפיצ׳ר יישאר איכותי ועקבי גם חודשים אחרי ההשקה – וישמור על עקביות אפילו אם נחליפו במודל אחר. כדי לעשות את זה, אנו מגדירים מראש מה בדיוק אנחנו רוצים לשפוט: לדוגמה, Truthfulness (נאמנות לעובדות), Clarity (בהירות), Toxicity (רעילות) או Bias (הטיה). לעתים נרצה קריטריונים ייחודיים יותר שנדרשים בעולם התוכן של המוצר.

    טיפ של אלופים - תעשו ״הפרד ומשול": אם יש כמה קריטריונים, עדיף ליצור שופט נפרד לכל קריטריון. כך אפשר לקבל תוצאות ברורות יותר, ולהבין בדיוק איפה הבעיה (נניח, Toxicity נמוכה אבל Clarity גבוהה) במקום לנסות להכניס הכול למדד אחד כללי ולאבד שקיפות.

    בנוסף, ככל שנגדיר ערכים בינאריים (True/False) או לכל היותר סקאלה פשוטה וחד משמעית ("נכון לגמרי" / "נכון חלקית" / "שגוי לגמרי"), נצמצם את הסיכוי לטעות שיפוט או אי הסכמה בין שופטים. 

    ועוד טיפ קטן - תמיד תשאלו את עצמכם: "אם היינו מעבירים את אותם חוקי שיפוט למספר אנשים עם היגיון בריא – האם הם היו מגיעים למסקנות דומות?" אם התשובה היא "כן", סימן שהגדרתם את הכללים היטב.

    רגע, קצת בעייתי לתת למודל "לשפוט" את עצמו, לא?

    נתחיל בכך שמשימת השיפוט (Evaluation) שונה לגמרי ממשימת היצירה (Generation). כשהמודל מייצר תשובה, הוא צריך להתמודד עם מגוון רחב של גורמים – מידע סותר, פרומפט לא ברור ועוד – ולייצר תוכן קוהרנטי. לעומת זאת, כשהמודל מתבקש להעריך תשובה, הוא בעיקר מבצע סיווג (Classification) על פי קריטריונים מוגדרים, תהליך ממוקד ופשוט יותר עבורו.

    ועדיין, עולה התהייה אם אנחנו לא בעצם נותנים למודל ״לשמור על השמנת״ כאשר הוא שופט את ביצועיו. לכן הגישה הרווחת עושה שימוש במודל אחר שישפוט את פלט המודל הראשי. גם השיטה הזו לא חפה מבעיות; מחקרים מראים שלמודלי שפה גדולים עלולה להיות הטיה (Bias) זה נגד זה. כדי להתגבר על הקושי הזה, פותחה גישה נישתית בשם "LLM-as-a-Jury": במקום מודל שפה גדול כשופט, משתמשים במספר מודלי שפה קטנים שמעריכים את אותה תשובה משקללים את הממוצע. כך מצמצמים את ההטיה, ובנוסף נהנים מתהליך זול באופן משמעותי יותר (זול פי 7).

    ולכל הפרפקציוניסטים בקהל, הנה לכם נתון נחמד: מודלי שפה שונים מגיעים להסכמה בכ-80% מהמקרים –  בדיוק אותה רמת הסכמה שנשיג בקרב מומחי תוכן שיעריכו את אותן התשובות באופן ידני. 

     

    אז מה עושים מחר בבוקר?

    הגדרת דרישות ופרמטרים

    לכל פיצ'ר מבוסס LLM מגדירים מראש מה הופך את התשובה ל”מספקת”: דיוק (Accuracy), טון (Tone), בהירות (Clarity), הימנעות מדיסאינפורמציה, ועוד – תלוי בצרכים של המוצר.

     

    בניית Golden Dataset ראשוני

    תתחילו בקטן: אספו כמה עשרות או מאות שאלות אפשריות ביחס לפיצ’ר שיצרתם. תייגו תשובות כ”טובות” או “לא טובות” (או לפי סקאלה פשוטה שהגדרתם). למשל, בצ’אטבוט של חנות: וריאציות על השאלה “מהן שעות הפתיחה לסניף בראשון לציון?”, עם תשובות נכונות, חלקיות או שגויות.

    ניתן להשתמש בדאטה פתוח, ליצור דאטה סינתטי או לאסוף דאטה אמיתי מהמוצר שלכם (האחרון הוא הטוב ביותר). העיקר הוא לרכז מספיק דוגמאות איכותיות שמייצגות את המציאות.

     

    כתיבת Evaluation Prompt

    הסבירו למודל השופט מה הקריטריונים (Accuracy, Tone, וכו’), איך למדוד אותם, ואיך עליו להגיב לתשובות שעומדות או לא עומדות בסטנדרט שהצבתם. אם יש הרבה פרמטרים, אפשר להפריד לפרומפט ייעודי לכל פרמטר.

     

    הרצה, השוואה ושיפור

    הריצו את המודל השופט על ה-Golden Dataset שהכנתם, בחנו את התוצאות, וראו היכן הוא מסווג תשובות כשגויות או מוצלחות. הסוד הוא איטרציות. תריצו ותכווננו הן את הפרומפט הראשי של המודל (שמייצר את התשובות) והן את הפרומפט השיפוטי – עד שתגיעו לרמת איכות שעומדת בדרישות. 

    ברגע שהמערכת עומדת בקריטריונים שהגדרתם, תוכלו לעקוב באופן שוטף גם אחרי עלייה לפרודקשן, להריץ בדיקות תקופתיות ולוודא שהאיכות נשמרת או משתפרת. קיימים בשוק לא מעט כלים שיאפשרו לכם לבנות בקלות את ה-llm evals שלכם. כמה דוגמאות הן  snorkle, mlflow arize ואפילו openai יצאו בחודשים האחרונים עם בטא לevals.  

     

    ״הכל אפשרי״* עם כוכבית

    אנחנו חיים בעידן שבו “הכול אפשרי” בזכות הבינה המלאכותית—אבל לפעמים הגמישות הזו פותחת דלת גם למצבים פחות מחמיאים, אם לא מקפידים על בדיקות נכונות. אז תבנו Golden Dataset מדויק, תכתבו Eval Prompts חכמים ותפעילו מערך Evals קבוע. תראו איך כל התהליך הזה עושה את ההבדל בין מוצר “חמוד בדמו” למוצר שבאמת כובש את השוק.

     בפוסט הבא נקח את הAI evals לרמה הבאה כשנדבר על יצירת ״שופטים״ עבור Agents. כשנכנסים לממלכה הזו, כבר אי אפשר להסתפק רק ב”תשובה נכונה”- המודל צריך לנווט בשטח מורכב, לקבל החלטות ולהמשיך למסלול הבא בלי ללכת לאיבוד. ועד אז… may the evals be ever in your favor 

     

    שתפו את הבלוג:

    Startup for Startup אישי

    קבלו עדכונים על הנושאים שהכי מעניינים אתכם

    Cloud
    Mic Wave

    שלי Startup for Startup

    קבלו עדכון ישר למייל ברגע שיוצא תוכן חדש בנושא.

    אני מאשר.ת לstartup for startup לשלוח אליי תוכן.

    monday.com's policy privacy -לעוד אינפורמציה כנסו ל

    AI
    Early stage
    Growth Stage
    Ideation
    Pre-seed
    Pre-seed/seed
    Scale/IPO
    Seed
    גיוס כספים
    דאטה
    הסדרות שלנו
    הצלחת לקוחות (CS)
    הרצאות מלאות
    השראה
    זווית המשקיע/ה
    יסודות בבניית סטארטאפ
    מוצר
    מכירות
    משאבי אנוש
    משפטי
    ניהול
    עיצוב
    פיננסים
    פיתוח
    שותפויות עסקיות
    שיווק
    שיעור אחד שלמדתי
    תפעול

    הירשמו לאיזור האישי

    צרו פרופיל אישי באתר ותוכלו להתחבר לאחרים ואחרות, לקבל תכנים מותאמים אישית, ולשמור את התכנים שהכי מעניינים אתכם.

    לאיזור האישי
    Startup for Startup

    Startup for Startup

    Moshe - משה Bellaiche - בלאיש

    Technical Sales Engagement / Product Manager / Addicted to AI at SeekingAI

    מאמר מעולה, במיוחד בתקופה שיותר ויותר מודלים גדלים ומתבדרים...

    הגיבו

    הירשמו לאיזור האישי
    צרו פרופיל אישי באתר ותוכלו להתחבר לאחרים ואחרות באקוסיסטם,
    לקבל תכנים מותאמים אישית,
    ולשמור את התכנים שהכי מעניינים אתכם.
    לאיזור האישי

    עוד תוכן בנושא:

    סטארטאפים מתחילים ללא הגדרות תפקיד - הסוד הוא לא לאבד את זה לעולם

    בלוג

    4 דק'

    07/2025

    סטארטאפים מתחילים ללא הגדרות תפקיד - הסוד הוא לא לאבד את זה לעולם

    #AI
    #Pre-seed
    #Seed
    Enter Card קריאת הבלוג
    MVP ב‑2025: בין Demo ל‑MLP – ללא פשרות

    בלוג

    4 דק'

    07/2025

    MVP ב‑2025: בין Demo ל‑MLP – ללא פשרות

    #AI
    #מוצר
    Enter Card קריאת הבלוג
    איך בונים מוצר בלי לקודד?

    בלוג

    4 דק'

    07/2025

    איך בונים מוצר בלי לקודד?

    #AI
    #מוצר
    #פיתוח
    Enter Card קריאת הבלוג
    מהפכת ה-No Code והסוכנים האוטונומיים: זוהי רק ההתחלה של עתיד פיתוח התוכנה

    בלוג

    5 דק'

    07/2025

    מהפכת ה-No Code והסוכנים האוטונומיים: זוהי רק ההתחלה של עתיד פיתוח התוכנה

    #AI
    #פיתוח
    Enter Card קריאת הבלוג
    וייב קודינג - איך פרומפט אחד שווה למוצר שלם    

    בלוג

    5 דק'

    07/2025

    וייב קודינג - איך פרומפט אחד שווה למוצר שלם    

    #AI
    #Seed
    #דאטה
    #פיתוח
    #שיווק
    Enter Card קריאת הבלוג
    פרודקטיבי 38: איך עושים גרות׳ למוצר שלנו? (שיר ירקוני, מאנדיי)

    פודקאסט

    28 דק'

    07/2025

    פרודקטיבי 38: איך עושים גרות׳ למוצר שלנו? (שיר ירקוני, מאנדיי)

    איך ניגשים לעשות גרות׳ במוצר קיים, איך משלבים בין דאטה למחקר ומשתמשים ואיך מעמיקים מעבר למה שהמשתמשי אומרים לנו כדי לייצר הזדמנויות במוצר שלנו

    #Growth Stage
    #Pre-seed
    #מוצר
    Enter Card האזנה לפרק
    308: על גיוס כסף מאנג׳לים - כל מה שכדאי לדעת (עמית גילון)

    פודקאסט

    47 דק'

    07/2025

    308: על גיוס כסף מאנג׳לים - כל מה שכדאי לדעת (עמית גילון)

    Enter Card האזנה לפרק
    איך לבנות סטארטאפ שישרוד גם כשטכנולוגיות ה- AI משתפרות כל חודש?

    בלוג

    4 דק'

    06/2025

    איך לבנות סטארטאפ שישרוד גם כשטכנולוגיות ה- AI משתפרות כל חודש?

    #AI
    #Pre-seed
    #Seed
    #דאטה
    #שיווק
    Enter Card קריאת הבלוג
    הצעת ערך שמוכרת: הכלי האסטרטגי שכל יזם צריך לשלוט בו

    בלוג

    4 דק'

    06/2025

    הצעת ערך שמוכרת: הכלי האסטרטגי שכל יזם צריך לשלוט בו

    #מוצר
    #שיווק
    Enter Card קריאת הבלוג
    איך לספר סיפור ששווה השקעה 

    וידאו

    06/2025

    איך לספר סיפור ששווה השקעה 

    #Early stage
    #Pre-seed
    Enter Card צפייה בוידאו
    פרודקטיבי 37: איך עושים רי-דיסקאברי לעולם הבעיה? (ליאור סאסי, Lightricks)

    פודקאסט

    28 דק'

    06/2025

    פרודקטיבי 37: איך עושים רי-דיסקאברי לעולם הבעיה? (ליאור סאסי, Lightricks)

    מה קורה כשמוצר שהגיע ל-Product-Market Fit פתאום מאבד רלוונטיות בגלל שינוי תרבותי עמוק? בפרק השבוע, רן ארז מארח את ליאור סאסי, מנהלת מוצר בחברת Lightricks, לשיחה מעמיקה על אחד האתגרים הכי מעניינים בעולמות ה-AI והקריאייטיב.

    #AI
    #Early stage
    #Growth Stage
    #Pre-seed
    #מוצר
    #עיצוב
    Enter Card האזנה לפרק
    ״על הספה״ - עם יזמת ששמעה 100 פעמים ״לא״ לפני הכסף הראשון 

    פודקאסט

    28 דק'

    06/2025

    ״על הספה״ - עם יזמת ששמעה 100 פעמים ״לא״ לפני הכסף הראשון 

    רומי גובס, מייסדת ומנכ״לית Sensi.Ai, מספרת על הדרך שעברה מיזמת שלא מצליחה להביא את עצמה בצורה הטובה ביותר מול משקיעים לגיוס של עשרות מיליוני דולרים והובלת עשרות עובדים.

    #Early stage
    #Growth Stage
    #Pre-seed
    #Pre-seed/seed
    #Seed
    #גיוס כספים
    #ניהול
    Enter Card האזנה לפרק

    חזרה להכל >>

    הניוזלטר שלנו

    הירשמו וקבלו עדכונים על פרקים חדשים, כתבות, אירועים ועוד הפתעות!

    רוצים לקחת חלק בשיתוף ידע?

    אם גם אתם רוצים להצטרף למשימה שלנו להעשיר את האקוסיסטם בידע ותובנות, אם אתם רוצים לשאול אותנו משהו, אם אתם מרגישים שיש משהו שעזר לכם וכולם צריכים לדעת, נשמח לשמוע. 

    כתבו לנו
    iconתשאלו אותנו הכל
    • מי אנחנו
    • האיזור האישי
    • ניוזלטר
    • הקהילה
    • טופס הצטרפות לקהילה
    • WorldWide
    • תיבת הצעות
    • פודקאסט
    • בלוג
    • קורסים
    • Watch & Learn
    • אירועים עתידיים
    • Terms of use
    • Privacy policy
    • פודקאסט
    • פרודקטיבי
    • פלייליסטים
    • פודקאסט באנגלית
    • בלוג
    • שיחות עם יזמים
    • תובנות
    • כל התכנים
    • Watch & Learn
    • גיוס עובדים
    • קורס ניהול
    • בניית מותג ויצירת תוכן
    • גיוס כסף בשלבים מוקדמים
    • צעדים ראשונים בהקמת סטארטאפ
    • חיפוש עבודה
    • ניהול מוצר: הבסיס
    • יסודות ה-SaaS והמדידה
    • Performance Marketing
    • טופס הצטרפות לקהילה
    • אירועים עתידיים
    logo
    • מי אנחנו
    • ניוזלטר
    • האיזור האישי
    • מאגר הסטארטאפים
    • מאגר הטמפלטים
    • תיבת הצעות
    • WorldWide
    • Terms of use
    • Privacy policy
    • Startup for StartupPodcast
    • Video Library
    • Blog – List View
    • Founders
    • Contact Us
    Follow us on Twitter Subscribe to our YouTube Channel Follow us on Instagram Connect with us on LinkedIn Like us on Facebook
    All Rights Reserved © monday.com
    Yitzhak Sadeh 6, Tel Aviv-Yafo
    התוכן נשמר בהצלחה! ניתן לצפות באזור השמורים

    יצירת פרופיל

    מילוי מדויק של הפרטים יאפשר לנו להתאים לך את התוכן הכי רלוונטי עבורך :)

    הציעו עזרה לאחרים

    הקהילה שלנו מבוססת על שיתוף ידע ועזרה הדדית :)
    הצטרפו כמומחים/ות ואפשרו לאנשים לפנות אליכם בתחומי המומחיות

    פרט *
    במידה ולא גייסת כסף אפשר לבחור את השלב המקביל לשלב שלך (לפי כמות עובדים, הכנסות וכו׳)
    העתיקו את הלינק מפרופיל הלינקדאין
    icon
    המייל נשלח!
    נותרו: 0 מיילים לחודש. מתחדש ב-1 לחודש
    סגור
    icon
    הפגישה נקבעה!
    נותרו: 0 פגישות לחודש. מתחדש ב-1 לחודש
    סגור
    סגור
    icon
    הבקשה שלך התקבלה, תודה :)
    אנחנו עוברים על כל הפרטים, ובקרוב ניצור איתך קשר בנוגע לשולחן העגול.
    סגור
    icon
    קיבלנו את בקשתך לפתיחת שולחן עגול!
    נעבור על הבקשה ובימים הקרובים ישלח אליך מייל אישור והשולחן יופיע ברשימת השולחנות העגולים.
    סגור
    ✕

    שליחת מייל

    שם מלא*
    תפקיד*
    חברה*
    קצת עליי *
    תוכן המייל*
    ✕

    שליחת מייל למשקיע/ה

    שם מלא*
    תפקיד*
    שם הסטארטאפ*
    לקראת סבב גיוס - או לא*
    תעשיות*
    לינק לאתר
    תוכן הפנייה*
    כדאי לכתוב בקצרה ובנימוס מה אתם מחפשים – השקעה, שותפות אסטרטגית, ייעוץ, סיוע בשוק מסוים וכו', ואם יש לכם משהו חשוב להוסיף עליכם או על הסטארטאפ.
    Pitch deck
    Maximum file size: 128 MB
    * כמה טיפים חשובים על איך כדאי לפנות למשקיעים/ות.

    Startup for Startup

    האם תרצה/י לשתף את הפרופיל שלך עם עוד א.נשים?

    • פרטים אישיים
    Profile picture
    העתיקו את הלינק מפרופיל הלינקדאין

    Startup for Startup

    האם תרצה/י לשתף את הפרופיל שלך עם עוד א.נשים?

    העתיקו את הלינק מפרופיל הלינקדאין
    icon
    אנחנו עוברים על הבקשה שלך :)
    אנחנו עוברים על כל הפרטים, ובזמן הקרוב תקבל/י מייל המעדכן בסטטוס הבקשה למערכת. בינתיים אפשר ליהנות מתוכן מותאם
    icon
    היי , כיף שהצטרפת :)
    עכשיו נוכל להתאים לך תוכן שיהיה רלוונטי עבורך וכמובן תוכל להצטרף לעולם הנטוורק בכל שלב.

    איזה כיף לראות אותך כאן :) איזה כיף לראות אותך כאן :)

    יש לך כבר חשבון? התחבר/י אין לך חשבון? להרשמה

    נראה שיש לך חשבון איתנו, אתה יכול להתחבר כאן

    נראה שאין לך עוד חשבון אצלנו, כאן אפשר להירשם

    Login with Google Login with Linkedin

      avatar איזור אישי
      אזור אישי התייעצות עם מומחה שמורים עריכת פרופיל התנתקות
    • תוכן
      • כל התכנים
      • פודקאסט
        • פודקאסט
        • פרודקטיבי
        • פלייליסטים
        • פודקאסט באנגלית
      • בלוג
        • בלוג
        • שיחות עם יזמים
        • תובנות מהדרך
      • וידאו
      • קורסים
        • חיפוש עבודה
        • צעדים ראשונים בהקמת סטארטאפ
        • גיוס כסף בשלבים מוקדמים
        • גיוס עובדים
        • יסודות בניהול מוצר
        • בניית מותג ויצירת תוכן
        • יסודות ה-SaaS והמדידה
        • Performance Marketing
      • הכל על..
    • אירועים
      • אירועים קרובים
        • איך בונים חברה ש(כמעט) כולה אאוטסורס
      • אירועי שולחנות עגולים
      • אירועים קודמים
    • הקהילה
      • הקהילה
      • טופס הצטרפות לקהילה
    • מי אנחנו
      • על Startup for Startup
      • תיבת הצעות
      • הצטרפו לניוזלטר
    • מאגרים שימושיים
      • מאגר הסטארטאפים
      • מאגר משרות
      • דיזיין פרטנס
      • טמפלטים
      • מאגר הטאלנטים
    • מתחברים
      • מציאת קו-פאונדר
      • גיוס כסף
      • סיוע מקצועי
    • Investors office hours – 3
    • meetings with investors 2024
    • Personal Area –Network Tab
    • Mentoring Program 3
    • Insider speakers
    • HealthTech Founders Startup for Startup
    • Newsletter for stage 1
    • Personal Area – My Content
    • Networks – Network
    • Stage Experience
    • ניוזלטר למחפשי עבודה
    • 1:1 עם משקיעים
    • תתי קהילות
    • ניהול קהילה
    • Debug
    • Mentoring Program December
    • Dec – mentors
    • newsletter for managers
    • Elevate Your Personal Brand with Startup for Startup
    • Forming Your Startup in the Age of AI
    • Angels sign up
    • jal roundtable
    • Round Table Form
    • Networks – Investors
    • Networks – Entrepreneurs
    • Networks – CO-Founders
    • Networks – Help Community
    • Networks – Saved Content
    • Content – Saved Content
    • Networks – Network
    • courseregistrationform
    • moredetails
    • course registration
    • Networks – Design Partners
    • sfs arbic
    • Sales assets
    • טופס פידבק מפגש ראשון
    • FintechX
    • FintechX Form
    • afikoman25
    • Investors Office Hours
    • Test-tag
    • curse-remainder-unsubscribe
    • Test_Monday_board
    • Networks – Hidden
    • Startups in war time
    • Conversations
    • Homepage Strips

    איזה כיף לראות אותך כאן :) איזה כיף לראות אותך כאן :)

    יש לך כבר חשבון? התחבר/י אין לך חשבון? להרשמה

    נראה שיש לך חשבון איתנו, אתה יכול להתחבר כאן

    נראה שאין לך עוד חשבון אצלנו, כאן אפשר להירשם

    Login with Google Login with Linkedin

    מצאת אותי!
    למילוי הפרטים לפרס >