בקצרה

הפוסט מסביר למה AI Evals (LLM evaluations) הם היתרון התחרותי החדש במוצרי בינה מלאכותית, ואיך האחריות על איכות הפלט עוברת ממפתחים למנהלי מוצר באמצעות בניית Golden Dataset, כתיבת Evaluation Prompts ושימוש בשופטי LLM כגון LLM-as-a-Judge ו-LLM-as-a-Jury למדידת דיוק, בהירות, טון, רעילות והטיות. עם דוגמאות, טיפים וכלים מעשיים כמו Snorkel, MLflow, Arize ו-OpenAI Evals, והבנה שגופי השקעה כמו Y Combinator בוחנים סטארטאפים לפי תשתית ה-evaluations שלהם, המדריך מציג תהליך צעד-אחר-צעד להבטחת עקביות בפרודקשן, צמצום הזיות ושיפור תשובות כך שמוצר AI יעבור מדמו חמוד לערך עסקי מתמשך.

בשנת 2019, עולם הקולנוע סער סביב "קפטן מארוול". עוד לפני שהסרט יצא לבתי הקולנוע, אתר דירוג הסרטים - Rotten Tomatoes הפך לזירה של קרב בין מבקרים מקצועיים לבין משתמשים אנונימיים. גל של ביקורות שליליות הופיע באתר, כשרובם הגדול כלל לא צפה בסרט. אולפני מארוול היו המומים. שובר קופות ענק היה תחת מתקפת reviews ממוקדת של קהל שאפילו לא ראה אותו עדיין. 

בעקבות המשבר, ב Rotten Tomatoes הבינו שיש כאן בעיית מדידה והחליטו לעשות שינוי מוצרי תקדימי. 

הם הדגישו את הפער בין ציוני המבקרים לציון הקהל, והוסיפו מדדים חדשים להערכת הסרטים. אחרי שהרשתות החברתיות עברו לשערוריה הבאה משהו מהאירוע הזה נשאר איתנו – הכוח ההרסני של אי מדידה, או גרוע מכך - מדידה לא איכותית שעלולה לייצר תמונת מצב שגויה לחלוטין.   

עכשיו דמיינו שהמוצר החדש והמבריק שלכם עולה לאוויר לראשונה, ובמקום לספק תשובות חכמות ומדויקות – הוא ממציא עובדות, מתקשר בשפה זרה למשתמש או סתם שולח תשובה גנרית כמו תקליט שבור. את התרגשות העליה לפרודקשן מחליפה חרדה עמוקה שמא הבאתם לעולם פיצ׳ר מיותר וחסר ערך. האמת היא שיש סיבה טובה לחשוש. אנחנו בעיצומו של צונאמי AI – מודלי שפה מציפים אותנו בשלל תכנים, חלקם גאוניים וחלקם, איך לומר, פחות. 

אז איך אנחנו יכולים לוודא שהמודל שלנו "מתנהג יפה" בפרודקשן לאורך זמן?

 

מהם בעצם LLM Evaluations (או בקיצור: LLM-Evals)?

במוצרים מבוססי מודלי שפה, הערך למשתמש תלוי באופן ישיר באיכות הפלט (התשובה) שהמודל מספק. הבעיה היא שבשונה ממודלים קלאסיים של Machine Learning, כאן לא תמיד יש "תשובה אחת נכונה". לפעמים נוסחים שונים של הפלט יכולים להיות מצויינים באותה מידה. 

אדם מומחה תוכן (Subject Matter Expert) כנראה יבדוק האם התשובה שימושית בקונטקסט שבו המשתמש נמצא, האם היא מדויקת  מבחינה עובדתית, האם היא כתובה בטון וסגנון מתאים לתחום ולפרסונה ועוד. 

אנחנו זקוקים למנגנון הערכה גמיש, שיודע לומר לנו אם פלט המודל מספיק טוב; אם הסיכום שהמודל יצר באמת קולע, ואם המידע שהצ׳אטבוט שלנו מציג מדויק ולא מטעה. וזה לא טריוויאלי כי האיכות של הפלט מושפעת מפרמטרים רבים, למשל:

עד כמה התשובה בהירה ושוטפת?

האם היא נכונה עובדתית (truthfulness)?

האם היא שומרת על טון מתאים למשתמש (למשל, שירותי ואדיב)?

כמה היא עלולה להיות רעילה (toxicity) או בעלת הטיות לא רצויות (bias)?

LLM-Evals, אם כן, היא קבוצה של כלים ושיטות להערכה אוטומטית (יחסית) של איכות התשובות שמודלי שפה מייצרים – בלי שנצטרך לגייס צוות ענק של מומחי תוכן שייתייגו את הדאטה ויעריכו כל תשובה ותשובה. בפוסט הזה, אתמקד בשיטת הערכה פופולארית שנקראת ״LLM-as-a-Judge" שבה נשלח הטקסט המג׳ונרט למודל שפה נוסף ששופט את טיבו (נקרא לו בפוסט הזה ״מודל שופט״). השיטה הזו מאפשרת לנו -מצד אחד- ליהנות מהסקיילביליות שנדרשת בפרודקשן, ומאידך לשלב איכויות שיפוט של מומחי תוכן כשהערכה גנרית לא מספיקה. 

 

׳LLM-evals are the new ‘Secret Sauce 

אז למה llm-evals פתאום מקבלים תהודה? אם לפני כמה שנים היינו מדברים על יתרון תחרותי המתבטא בקוד, היום היכולת "לייצר קוד" נמצאת בידיים של כולם. Everything is programmable כפי שטבע דארמש שאה, מייסד Hubspot. 

 אפילו הדאטה האירגוני שעד לא מזמן נחשב ל-IP חזק, גם הוא מתחיל לאבד מעוצמתו בתור חפיר הגנתי יחיד' כשהיכולת לייצר דאטה סינטטי איכותית לטובת ׳לימוד׳ המודל נהיית מספקת דיה.

אם כן, איך מזהים סטארטאפים מבטיחים בעידן שבו הכל אפשרי? משקיעים כמו האקסלרטור המצליח Y Combinator שיצאו ממנו חברות כמו airbnb ו- Stripe  בוחנים חוסן של סטאראפ על סמך תשתית הAI evaluations שבנה, כאינדיקציה חזקה לנבדלות בעידן שבו זול וקל לבנות בן לילה מוצר AI מתחרה. מה שמבדל באמת חברת מוצר אחת ממשנתה הוא היכולת שלנו להעריך ולשפר את איכות התשובות שמודלי השפה מספקים, ולוודא שהן עונות על הצורך המדויק של המשתמש. 

 

LLM-evals: במגרש של מי זה יושב?

בעבר, איכות הפיצ׳ר הייתה משוייכת אוטומטית לאנשי הפיתוח וה-QA – הרי בסוף מדובר בקוד. אם פעם יכולנו להסתפק בבדיקות QA וקוד תקין, היום כמעט 100% מהערך של פיצ׳רים מבוססי LLM תלוי באיכויות הטקסטואלית שמייצר המודל. ולכן, הגדרת ה-Acceptance Criteria והסטנדרטים לאיכות המודל – ובעצם קביעה של מה נחשב "טוב" בעיני המשתמש – הופכת לאחריות מנהלי המוצר.

 אנחנו שומעים את מובילי המוצר של חברות כמו OpenAI ו-Anthropic מדברים על AI Evals כחלק מרכזי בתפקיד החדש של מנהלי המוצר. למעשה, האחריות על האיכות זולגת מהמפתחים ומהבודקים אל מנהלי המוצר. בעידן הנוכחי, שבו גם המתחרים משתמשים במודלים דומים, הערך האמיתי יגיע מפתרונות שמותאמים לעולם התוכן וליוזקייס הרלוונטי ביותר. כאן בדיוק נכנסת המומחיות של מנהלי המוצר, שמכירים לעומק את הפרסונה, התהליכים העסקיים והצרכים בשטח – ומסוגלים לבנות את מערך ה-Evals המדויק ביותר, ולהבטיח שהפלט באמת מועיל למשתמש. אנשי המוצר הופכים להיות שומרי הסף של תוצר המודל, ואחראים שהמוצר אכן מספק ערך אמיתי במקום סתם לייצר טקסט לא שימושי (או גרוע מכך, מטעה ומזיק).

 

אוקי, אז איך זה עובד?

הכלי המרכזי שלנו הוא ה-Golden Dataset – זהו מעין בנצ'מרק שמשמש כנקודת ייחוס להערכה של פלט המודל. ה-Golden Dataset מכיל תסריטים שמדמים את הקלט (input) שנשלח למודל הראשי, את הפלט שהוא מחזיר (output) ואת הציון שהפלט מקבל. למשל, במקרה של מוצר צ׳אטבוט, נכניס דוגמאות שמייצגות שאילתות של המשתמשים. עבור כל שאילתא ב-Golden Dataset נגדיר תשובה ונעריך אותה על סמך הקריטריונים שהגדרנו. ה-Golden Dataset משמש לנו כמצפן: הוא מייצג את "האמת" או נקודת הייחוס (Ground Truth) שלפיה המודל השופט אמור לקבוע אם פלט מסוים הוא טוב או לא. ולכן, נרצה לספק למודל השופט מגוון רחב של דוגמאות טובות ורעות.

 ברגע שאנחנו יודעים איך נבדוק אם משהו טוב או לא טוב, אנחנו עוברים לשלב הבא – בניית ה-Eval Prompt. אלו הם בעצם "חוקי המשחק" שאנחנו נותנים למודל השופט על מנת להנחות אותו כיצד לנתח את הדוגמאות ולהעריך לפי הקריטריונים שהגדרנו.

ככל שיש יותר פרמטרים ויותר מורכבות, כך ייתכן שנזדקק ל-Eval Prompt מפורט יותר, או לכמה Prompts שונים. כאן נכנסים לתמונה גם סוגי ה"שופטים" שעומדים לרשותנו:

שופט השוואתי: משווה בין שני פלטים ובוחר מי טוב יותר (נהדר להשוואה בין שתי גרסאות שונות של הפרומפט הראשי של הפיצ׳ר או להשוואה בין מודלים שונים).

שופט לפי קריטריונים גנריים: מודד בהירות (Clarity), טון (Tone), מידת אריכות (Verbosity) ועוד. אידיאלי למקרים שבהם יש שורה של מאפיינים גנריים ואובייקטיביים שמאפיינים תשובה "איכותית".

שופט קונטקסטואלי: בודק תשובה אל מול "אמת מוחלטת" שמוזרקת כחלק מהקונטקסט (למשל, שעות הפתיחה של סניף x). בדוגמה הזו, אם ground truth הוא "פתוחים א-ה בין 8:00 ל-15:00", שופט קונטקסטואלי יבדוק אם התשובה המדוברת תואמת את המידע המדויק.

המטרה שלנו היא לא רק להרשים בדמו הראשוני, אלא להבטיח שהפיצ׳ר יישאר איכותי ועקבי גם חודשים אחרי ההשקה – וישמור על עקביות אפילו אם נחליפו במודל אחר. כדי לעשות את זה, אנו מגדירים מראש מה בדיוק אנחנו רוצים לשפוט: לדוגמה, Truthfulness (נאמנות לעובדות), Clarity (בהירות), Toxicity (רעילות) או Bias (הטיה). לעתים נרצה קריטריונים ייחודיים יותר שנדרשים בעולם התוכן של המוצר.

טיפ של אלופים - תעשו ״הפרד ומשול": אם יש כמה קריטריונים, עדיף ליצור שופט נפרד לכל קריטריון. כך אפשר לקבל תוצאות ברורות יותר, ולהבין בדיוק איפה הבעיה (נניח, Toxicity נמוכה אבל Clarity גבוהה) במקום לנסות להכניס הכול למדד אחד כללי ולאבד שקיפות.

בנוסף, ככל שנגדיר ערכים בינאריים (True/False) או לכל היותר סקאלה פשוטה וחד משמעית ("נכון לגמרי" / "נכון חלקית" / "שגוי לגמרי"), נצמצם את הסיכוי לטעות שיפוט או אי הסכמה בין שופטים. 

ועוד טיפ קטן - תמיד תשאלו את עצמכם: "אם היינו מעבירים את אותם חוקי שיפוט למספר אנשים עם היגיון בריא – האם הם היו מגיעים למסקנות דומות?" אם התשובה היא "כן", סימן שהגדרתם את הכללים היטב.

רגע, קצת בעייתי לתת למודל "לשפוט" את עצמו, לא?

נתחיל בכך שמשימת השיפוט (Evaluation) שונה לגמרי ממשימת היצירה (Generation). כשהמודל מייצר תשובה, הוא צריך להתמודד עם מגוון רחב של גורמים – מידע סותר, פרומפט לא ברור ועוד – ולייצר תוכן קוהרנטי. לעומת זאת, כשהמודל מתבקש להעריך תשובה, הוא בעיקר מבצע סיווג (Classification) על פי קריטריונים מוגדרים, תהליך ממוקד ופשוט יותר עבורו.

ועדיין, עולה התהייה אם אנחנו לא בעצם נותנים למודל ״לשמור על השמנת״ כאשר הוא שופט את ביצועיו. לכן הגישה הרווחת עושה שימוש במודל אחר שישפוט את פלט המודל הראשי. גם השיטה הזו לא חפה מבעיות; מחקרים מראים שלמודלי שפה גדולים עלולה להיות הטיה (Bias) זה נגד זה. כדי להתגבר על הקושי הזה, פותחה גישה נישתית בשם "LLM-as-a-Jury": במקום מודל שפה גדול כשופט, משתמשים במספר מודלי שפה קטנים שמעריכים את אותה תשובה משקללים את הממוצע. כך מצמצמים את ההטיה, ובנוסף נהנים מתהליך זול באופן משמעותי יותר (זול פי 7).

ולכל הפרפקציוניסטים בקהל, הנה לכם נתון נחמד: מודלי שפה שונים מגיעים להסכמה בכ-80% מהמקרים –  בדיוק אותה רמת הסכמה שנשיג בקרב מומחי תוכן שיעריכו את אותן התשובות באופן ידני. 

 

אז מה עושים מחר בבוקר?

הגדרת דרישות ופרמטרים

לכל פיצ'ר מבוסס LLM מגדירים מראש מה הופך את התשובה ל”מספקת”: דיוק (Accuracy), טון (Tone), בהירות (Clarity), הימנעות מדיסאינפורמציה, ועוד – תלוי בצרכים של המוצר.

 

בניית Golden Dataset ראשוני

תתחילו בקטן: אספו כמה עשרות או מאות שאלות אפשריות ביחס לפיצ’ר שיצרתם. תייגו תשובות כ”טובות” או “לא טובות” (או לפי סקאלה פשוטה שהגדרתם). למשל, בצ’אטבוט של חנות: וריאציות על השאלה “מהן שעות הפתיחה לסניף בראשון לציון?”, עם תשובות נכונות, חלקיות או שגויות.

ניתן להשתמש בדאטה פתוח, ליצור דאטה סינתטי או לאסוף דאטה אמיתי מהמוצר שלכם (האחרון הוא הטוב ביותר). העיקר הוא לרכז מספיק דוגמאות איכותיות שמייצגות את המציאות.

 

כתיבת Evaluation Prompt

הסבירו למודל השופט מה הקריטריונים (Accuracy, Tone, וכו’), איך למדוד אותם, ואיך עליו להגיב לתשובות שעומדות או לא עומדות בסטנדרט שהצבתם. אם יש הרבה פרמטרים, אפשר להפריד לפרומפט ייעודי לכל פרמטר.

 

הרצה, השוואה ושיפור

הריצו את המודל השופט על ה-Golden Dataset שהכנתם, בחנו את התוצאות, וראו היכן הוא מסווג תשובות כשגויות או מוצלחות. הסוד הוא איטרציות. תריצו ותכווננו הן את הפרומפט הראשי של המודל (שמייצר את התשובות) והן את הפרומפט השיפוטי – עד שתגיעו לרמת איכות שעומדת בדרישות. 

ברגע שהמערכת עומדת בקריטריונים שהגדרתם, תוכלו לעקוב באופן שוטף גם אחרי עלייה לפרודקשן, להריץ בדיקות תקופתיות ולוודא שהאיכות נשמרת או משתפרת. קיימים בשוק לא מעט כלים שיאפשרו לכם לבנות בקלות את ה-llm evals שלכם. כמה דוגמאות הן  snorkle, mlflow arize ואפילו openai יצאו בחודשים האחרונים עם בטא לevals.  

 

״הכל אפשרי״* עם כוכבית

אנחנו חיים בעידן שבו “הכול אפשרי” בזכות הבינה המלאכותית—אבל לפעמים הגמישות הזו פותחת דלת גם למצבים פחות מחמיאים, אם לא מקפידים על בדיקות נכונות. אז תבנו Golden Dataset מדויק, תכתבו Eval Prompts חכמים ותפעילו מערך Evals קבוע. תראו איך כל התהליך הזה עושה את ההבדל בין מוצר “חמוד בדמו” למוצר שבאמת כובש את השוק.

 בפוסט הבא נקח את הAI evals לרמה הבאה כשנדבר על יצירת ״שופטים״ עבור Agents. כשנכנסים לממלכה הזו, כבר אי אפשר להסתפק רק ב”תשובה נכונה”- המודל צריך לנווט בשטח מורכב, לקבל החלטות ולהמשיך למסלול הבא בלי ללכת לאיבוד. ועד אז… may the evals be ever in your favor 

 

תובנות מרכזיות

מהם AI evals וכיצד הם משנים את תפקיד מנהל המוצר?

AI evals הם מערכות הערכה שמודדות את הביצועים והאפקטיביות של אלגוריתמים מבוססי בינה מלאכותית. הם משנים את תפקיד מנהל המוצר בכך שהוא נדרש להגדיר ולתחזק מערכי בדיקה ברורים, להבין תוצאות הערכה ולהטמיע תובנות בתהליך קבלת ההחלטות המוצריות.

איזה כישורים חדשים נדרש ממנהל מוצר בעידן של AI evals?

מנהל מוצר בעידן ה-AI evals צריך לפתח אוריינות טכנולוגית גבוהה יותר, במיוחד בנוגע לשיטות ולמדדים להערכת AI. עליו להבין כיצד להגדיר מטריקות רלוונטיות, לעבוד בשיתוף פעולה עם צוותי דאטה ולהשתמש בכלים אוטומטיים לבחינת אפקטיביות המוצר.

כיצד AI evals משפיעים על פיתוח ושיפור מוצרים מבוססי AI?

AI evals מאפשרים פידבק מדויק יותר על הביצועים של המוצר בבסיס ה-AI שלו, מה שמאפשר שיפור מהיר ויסודי יותר. התובנות שמופקות מהערכות אלו משפרות את דיוק המודל, חוויית המשתמש והתאמת המוצר לצרכים של קהלי יעד שונים.

מהי החשיבות של שקיפות בהגדרת מטריקות AI evals?

שקיפות בהגדרת מטריקות היא קריטית מכיוון שהיא מוודאת שכל בעלי העניין מבינים את הקריטריונים להצלחה של המוצר. בנוסף, שקיפות תורמת לבניית אמון מול משתמשים חיצוניים ושומרת על סטנדרטים אתיים בהפעלת מודלים מבוססי בינה מלאכותית.

איך משתלבים AI evals בתהליך העבודה היומיומי של מנהלי מוצר?

AI evals משתלבים ככלי עבודה קבוע שמסייע לניתור מתמיד של איכות המוצר. מנהל המוצר משתמש בהם כדי לזהות תקלות, לבחון גרסאות חדשות ולהתאים את כיווני הפיתוח לפי תובנות מבוססות מידע.

עוד תוכן בנושא
353: איך בנינו ״מוח צוותי״ שמתעדכן לבד

פודקאסט

26 דק'

353: איך בנינו ״מוח צוותי״ שמתעדכן לבד

אנחנו מדברים על איך בנינו מוח ארגוני שמאגד את כל הקונטקסט של העבודה ומשרת את המפתחים, המעצבים ואנשי המוצר ביום-יום.

AI
Early stage
Growth Stage
Enter Card האזנה לפרק

בלוג

3 דק'

להפוך כל פיצ'ר לקמפיין: למה מנהלי מוצר צריכים להתחיל לייצר סרטוני וידאו?

AI
מוצר
שיווק
Enter Card קריאת הבלוג
להפוך כל פיצ'ר לקמפיין: למה מנהלי מוצר צריכים להתחיל לייצר סרטוני וידאו?

פודקאסט

29 דק'

פרודקטיבי 60: איך AI משנה את תהליך ה-MVP?

האם MVP עדיין רלוונטי בעידן של Vibe Coding? האזינו לפרק

AI
Early stage
Growth Stage
+2
Enter Card האזנה לפרק
פרודקטיבי 60: איך AI משנה את תהליך ה-MVP?
352: מעבדת האייג'נטים: איך בנינו מגרש משחקים למוצר ה-AI הבא

פודקאסט

39 דק'

352: מעבדת האייג'נטים: איך בנינו מגרש משחקים למוצר ה-AI הבא

קצב ההתפתחות של ה-AI הפך להיות כל כך מהיר, שהכלים משתנים כמעט כל שבוע וחברות תוכנה פשוט לא יכולות להרשות לעצמן לשבת על הגדר ולחכות שהשוק יתייצב. כדי לרוץ בקצב הזה בלי לזעזע את מוצר הליבה, הקימו במאנדיי את ה-Agent Labs, מגרש משחקים פנימי וקטן שנועד לבחון אייג׳נטים בזמן אמת ולאפשר לחברה להישאר בחזית הטכנולוגיה. […]

AI
Early stage
Growth Stage
+3
Enter Card האזנה לפרק

וידאו

11 דק'

איך לבנות אייג׳נטים אמינים בלי להעמיס קונטקסט

AI
Enter Card צפייה בוידאו
איך לבנות אייג׳נטים אמינים בלי להעמיס קונטקסט

וידאו

13 דק'

איך לגרום לכלי ה-AI שלכם להתפוצץ כשכולם בונים בדיוק את אותו דבר?

שׁשׁ

AI
Enter Card צפייה בוידאו
איך לגרום לכלי ה-AI שלכם להתפוצץ כשכולם בונים בדיוק את אותו דבר?
איך בנינו מערך אייג׳נטים שהוריד את עלות הלידים ב75%?

וידאו

11 דק'

איך בנינו מערך אייג׳נטים שהוריד את עלות הלידים ב75%?

AI
Enter Card צפייה בוידאו

וידאו

32 דק'

איך אייג׳נטים מגדירים את העבודה שלנו מחדש?

AI
Enter Card צפייה בוידאו
איך אייג׳נטים מגדירים את העבודה שלנו מחדש?

וידאו

36 דק'

איך בונים מוח ארגוני שהופך למכונת לGTM?

AI
Enter Card צפייה בוידאו
איך בונים מוח ארגוני שהופך למכונת לGTM?
הסיפור של NanoClaw וההזדמנויות הבאות של סטארטאפים בעידן האייג׳נטים

וידאו

35 דק'

הסיפור של NanoClaw וההזדמנויות הבאות של סטארטאפים בעידן האייג׳נטים

AI
Enter Card צפייה בוידאו

וידאו

13 דק'

מקסימום Velocity, מינימום אנשים: לעבוד יעיל בצוות היברידי קטן

AI
Enter Card צפייה בוידאו
מקסימום Velocity, מינימום אנשים: לעבוד יעיל בצוות היברידי קטן

פודקאסט

39 דק'

351: שבוע האייג׳נטים - איך גורמים לכל החברה לעבוד עם AI

איך רותמים 3,000 עובדים לחזון ומוצר חדשים של החברה? דיברנו בחודשים האחרונים על השינוי הענק שמאנדיי עוברת בעקבות מהפכת ה-AI, ועכשיו הגיע הזמן לרתום את כלל החברה בפועל לטרנספורמציה המוצרית והעסקית. אבל איך עושים את זה? במאנדיי בחרו במהלך של Agentic Week, שבוע של מאמץ מרוכז שבו הארגון כולו הופך ל-Customer Zero של עצמו. בפרק […]

AI
Early stage
Growth Stage
+3
Enter Card האזנה לפרק
351: שבוע האייג׳נטים - איך גורמים לכל החברה לעבוד עם AI
בינה מלאכותית פרטקית: חבר הצוות החדש שלכם הוא לא אנושי, וגם הוא צריך אונבורדינג

בלוג

בינה מלאכותית פרטקית: חבר הצוות החדש שלכם הוא לא אנושי, וגם הוא צריך אונבורדינג

AI
Enter Card קריאת הבלוג

פודקאסט

25 דק'

פרודקטיבי 59: איך לנתח מידע איכותני בסקייל בעזרת AI?

התהליך של זיהוי הזדמנויות צמיחה בנקודת זמן שבה הארגון נדרש להשתנות ולהתרחב.

AI
דאטה
מוצר
Enter Card האזנה לפרק
פרודקטיבי 59: איך לנתח מידע איכותני בסקייל בעזרת AI?

פודקאסט

40 דק'

348: דמוקרטיזציה של דאטה - איך בנינו אייג׳נט שמנגיש מידע לכל עובד בחברה

אנחנו מדברים על הבנייה של "קרמר", דאטה-אייג'נט שמתפקד כשותף אנליטי אישי הזמין לכלל עובדי החברה.

AI
דאטה
מוצר
Enter Card האזנה לפרק
348: דמוקרטיזציה של דאטה - איך בנינו אייג׳נט שמנגיש מידע לכל עובד בחברה
הפרדוקס של עידן ה-AI: למה דווקא עכשיו היזמות בסייבר חוזרת ליסודות 

בלוג

3 דק'

הפרדוקס של עידן ה-AI: למה דווקא עכשיו היזמות בסייבר חוזרת ליסודות 

AI
Enter Card קריאת הבלוג

פודקאסט

26 דק'

פרודקטיבי 58: איך מכניסים AI לחברת ריטייל ותיקה?

מה קורה כשחברות מסורתיות רוצות לאמץ בינה מלאכותית

AI
מוצר
Enter Card האזנה לפרק
פרודקטיבי 58: איך מכניסים AI לחברת ריטייל ותיקה?

פודקאסט

31 דק'

347: חמשת שלבי ההתנגדות - למה קשה לנו לאמץ AI בעבודה?

איך אפשר להתמודד עם טענות של עובדות ועובדים שמתקשים להתרגל למציאות חדשה? האזינו לפרק.

AI
Early stage
Pre-seed
+1
Enter Card האזנה לפרק
347: חמשת שלבי ההתנגדות - למה קשה לנו לאמץ AI בעבודה?
AI-First Company: איך בונים סטארטאפ עם צוות מצומצם וחבורת אייג’נטים

וידאו

01 דק'

AI-First Company: איך בונים סטארטאפ עם צוות מצומצם וחבורת אייג’נטים

AI
Ideation
Pre-seed
+1
Enter Card צפייה בוידאו

פודקאסט

36 דק'

345: איך בנינו נבחרת אייג׳נטים שמנהלת אלפי לידים ברבעון

אנחנו מדברים על שילוב הפיכת תהליך המכירות לאייג׳נט, איך ניגשנו לאתגר הזה ומה למדנו בדרך.

AI
Early stage
Growth Stage
+2
Enter Card האזנה לפרק
345: איך בנינו נבחרת אייג׳נטים שמנהלת אלפי לידים ברבעון

וידאו

63 דק'

Building Customer-Facing Agents

AI
Enter Card צפייה בוידאו
Building Customer-Facing Agents
איך בונים מערך GEO שיסייע לסטארטאפ שלך לגייס הון, לרכוש לקוחות ולפרוץ לשוק העולמי?

בלוג

3 דק'

איך בונים מערך GEO שיסייע לסטארטאפ שלך לגייס הון, לרכוש לקוחות ולפרוץ לשוק העולמי?

AI
Enter Card קריאת הבלוג

פודקאסט

27 דק'

פרודקטיבי 57: איך לבנות מוצר מאפס ללקוחות משלמים תוך 30 יום?

האם ניתן בעזרת כלי AI ובשעה אחת בלבד ביום, לאתר בעיה אמיתית, לפתח לה פתרון טכנולוגי ולהגיע ללקוחות משלמים תוך חודש אחד בלבד?

AI
Early stage
Pre-seed
+1
Enter Card האזנה לפרק
פרודקטיבי 57: איך לבנות מוצר מאפס ללקוחות משלמים תוך 30 יום?

פודקאסט

29 דק'

343: הדרך שלנו לקוד שנכתב כולו באמצעות אייגנ׳טים

אנחנו מדברים בפרק על איך הכנסנו AI לארגון הפיתוח שלנו, ועל שלושה יוסקייסים שבהם AI ייעל ושינה את תהליך העבודה עבור מפתחים.

AI
Pre-seed/seed
פיתוח
Enter Card האזנה לפרק
343: הדרך שלנו לקוד שנכתב כולו באמצעות אייגנ׳טים
353: איך בנינו ״מוח צוותי״ שמתעדכן לבד

פודקאסט

26 דק'

353: איך בנינו ״מוח צוותי״ שמתעדכן לבד

אנחנו מדברים על איך בנינו מוח ארגוני שמאגד את כל הקונטקסט של העבודה ומשרת את המפתחים, המעצבים ואנשי המוצר ביום-יום.

AI
Early stage
Growth Stage
Enter Card האזנה לפרק
להפוך כל פיצ'ר לקמפיין: למה מנהלי מוצר צריכים להתחיל לייצר סרטוני וידאו?

בלוג

3 דק'

להפוך כל פיצ'ר לקמפיין: למה מנהלי מוצר צריכים להתחיל לייצר סרטוני וידאו?

AI
מוצר
שיווק
Enter Card קריאת הבלוג
פרודקטיבי 60: איך AI משנה את תהליך ה-MVP?

פודקאסט

29 דק'

פרודקטיבי 60: איך AI משנה את תהליך ה-MVP?

האם MVP עדיין רלוונטי בעידן של Vibe Coding? האזינו לפרק

AI
Early stage
Growth Stage
+2
Enter Card האזנה לפרק
352: מעבדת האייג'נטים: איך בנינו מגרש משחקים למוצר ה-AI הבא

פודקאסט

39 דק'

352: מעבדת האייג'נטים: איך בנינו מגרש משחקים למוצר ה-AI הבא

קצב ההתפתחות של ה-AI הפך להיות כל כך מהיר, שהכלים משתנים כמעט כל שבוע וחברות תוכנה פשוט לא יכולות להרשות לעצמן לשבת על הגדר ולחכות שהשוק יתייצב. כדי לרוץ בקצב הזה בלי לזעזע את מוצר הליבה, הקימו במאנדיי את ה-Agent Labs, מגרש משחקים פנימי וקטן שנועד לבחון אייג׳נטים בזמן אמת ולאפשר לחברה להישאר בחזית הטכנולוגיה. […]

AI
Early stage
Growth Stage
+3
Enter Card האזנה לפרק
איך לבנות אייג׳נטים אמינים בלי להעמיס קונטקסט

וידאו

11 דק'

איך לבנות אייג׳נטים אמינים בלי להעמיס קונטקסט

AI
Enter Card צפייה בוידאו
איך לגרום לכלי ה-AI שלכם להתפוצץ כשכולם בונים בדיוק את אותו דבר?

וידאו

13 דק'

איך לגרום לכלי ה-AI שלכם להתפוצץ כשכולם בונים בדיוק את אותו דבר?

שׁשׁ

AI
Enter Card צפייה בוידאו
איך בנינו מערך אייג׳נטים שהוריד את עלות הלידים ב75%?

וידאו

11 דק'

איך בנינו מערך אייג׳נטים שהוריד את עלות הלידים ב75%?

AI
Enter Card צפייה בוידאו
איך אייג׳נטים מגדירים את העבודה שלנו מחדש?

וידאו

32 דק'

איך אייג׳נטים מגדירים את העבודה שלנו מחדש?

AI
Enter Card צפייה בוידאו
איך בונים מוח ארגוני שהופך למכונת לGTM?

וידאו

36 דק'

איך בונים מוח ארגוני שהופך למכונת לGTM?

AI
Enter Card צפייה בוידאו
הסיפור של NanoClaw וההזדמנויות הבאות של סטארטאפים בעידן האייג׳נטים

וידאו

35 דק'

הסיפור של NanoClaw וההזדמנויות הבאות של סטארטאפים בעידן האייג׳נטים

AI
Enter Card צפייה בוידאו
מקסימום Velocity, מינימום אנשים: לעבוד יעיל בצוות היברידי קטן

וידאו

13 דק'

מקסימום Velocity, מינימום אנשים: לעבוד יעיל בצוות היברידי קטן

AI
Enter Card צפייה בוידאו
351: שבוע האייג׳נטים - איך גורמים לכל החברה לעבוד עם AI

פודקאסט

39 דק'

351: שבוע האייג׳נטים - איך גורמים לכל החברה לעבוד עם AI

איך רותמים 3,000 עובדים לחזון ומוצר חדשים של החברה? דיברנו בחודשים האחרונים על השינוי הענק שמאנדיי עוברת בעקבות מהפכת ה-AI, ועכשיו הגיע הזמן לרתום את כלל החברה בפועל לטרנספורמציה המוצרית והעסקית. אבל איך עושים את זה? במאנדיי בחרו במהלך של Agentic Week, שבוע של מאמץ מרוכז שבו הארגון כולו הופך ל-Customer Zero של עצמו. בפרק […]

AI
Early stage
Growth Stage
+3
Enter Card האזנה לפרק
בינה מלאכותית פרטקית: חבר הצוות החדש שלכם הוא לא אנושי, וגם הוא צריך אונבורדינג

בלוג

בינה מלאכותית פרטקית: חבר הצוות החדש שלכם הוא לא אנושי, וגם הוא צריך אונבורדינג

AI
Enter Card קריאת הבלוג
פרודקטיבי 59: איך לנתח מידע איכותני בסקייל בעזרת AI?

פודקאסט

25 דק'

פרודקטיבי 59: איך לנתח מידע איכותני בסקייל בעזרת AI?

התהליך של זיהוי הזדמנויות צמיחה בנקודת זמן שבה הארגון נדרש להשתנות ולהתרחב.

AI
דאטה
מוצר
Enter Card האזנה לפרק
348: דמוקרטיזציה של דאטה - איך בנינו אייג׳נט שמנגיש מידע לכל עובד בחברה

פודקאסט

40 דק'

348: דמוקרטיזציה של דאטה - איך בנינו אייג׳נט שמנגיש מידע לכל עובד בחברה

אנחנו מדברים על הבנייה של "קרמר", דאטה-אייג'נט שמתפקד כשותף אנליטי אישי הזמין לכלל עובדי החברה.

AI
דאטה
מוצר
Enter Card האזנה לפרק
הפרדוקס של עידן ה-AI: למה דווקא עכשיו היזמות בסייבר חוזרת ליסודות 

בלוג

3 דק'

הפרדוקס של עידן ה-AI: למה דווקא עכשיו היזמות בסייבר חוזרת ליסודות 

AI
Enter Card קריאת הבלוג
פרודקטיבי 58: איך מכניסים AI לחברת ריטייל ותיקה?

פודקאסט

26 דק'

פרודקטיבי 58: איך מכניסים AI לחברת ריטייל ותיקה?

מה קורה כשחברות מסורתיות רוצות לאמץ בינה מלאכותית

AI
מוצר
Enter Card האזנה לפרק
347: חמשת שלבי ההתנגדות - למה קשה לנו לאמץ AI בעבודה?

פודקאסט

31 דק'

347: חמשת שלבי ההתנגדות - למה קשה לנו לאמץ AI בעבודה?

איך אפשר להתמודד עם טענות של עובדות ועובדים שמתקשים להתרגל למציאות חדשה? האזינו לפרק.

AI
Early stage
Pre-seed
+1
Enter Card האזנה לפרק
AI-First Company: איך בונים סטארטאפ עם צוות מצומצם וחבורת אייג’נטים

וידאו

01 דק'

AI-First Company: איך בונים סטארטאפ עם צוות מצומצם וחבורת אייג’נטים

AI
Ideation
Pre-seed
+1
Enter Card צפייה בוידאו
345: איך בנינו נבחרת אייג׳נטים שמנהלת אלפי לידים ברבעון

פודקאסט

36 דק'

345: איך בנינו נבחרת אייג׳נטים שמנהלת אלפי לידים ברבעון

אנחנו מדברים על שילוב הפיכת תהליך המכירות לאייג׳נט, איך ניגשנו לאתגר הזה ומה למדנו בדרך.

AI
Early stage
Growth Stage
+2
Enter Card האזנה לפרק
Building Customer-Facing Agents

וידאו

63 דק'

Building Customer-Facing Agents

AI
Enter Card צפייה בוידאו
איך בונים מערך GEO שיסייע לסטארטאפ שלך לגייס הון, לרכוש לקוחות ולפרוץ לשוק העולמי?

בלוג

3 דק'

איך בונים מערך GEO שיסייע לסטארטאפ שלך לגייס הון, לרכוש לקוחות ולפרוץ לשוק העולמי?

AI
Enter Card קריאת הבלוג
פרודקטיבי 57: איך לבנות מוצר מאפס ללקוחות משלמים תוך 30 יום?

פודקאסט

27 דק'

פרודקטיבי 57: איך לבנות מוצר מאפס ללקוחות משלמים תוך 30 יום?

האם ניתן בעזרת כלי AI ובשעה אחת בלבד ביום, לאתר בעיה אמיתית, לפתח לה פתרון טכנולוגי ולהגיע ללקוחות משלמים תוך חודש אחד בלבד?

AI
Early stage
Pre-seed
+1
Enter Card האזנה לפרק
343: הדרך שלנו לקוד שנכתב כולו באמצעות אייגנ׳טים

פודקאסט

29 דק'

343: הדרך שלנו לקוד שנכתב כולו באמצעות אייגנ׳טים

אנחנו מדברים בפרק על איך הכנסנו AI לארגון הפיתוח שלנו, ועל שלושה יוסקייסים שבהם AI ייעל ושינה את תהליך העבודה עבור מפתחים.

AI
Pre-seed/seed
פיתוח
Enter Card האזנה לפרק
רוצים לקחת חלק בשיתוף ידע?
אם גם אתם רוצים להצטרף למשימה שלנו להעשיר את האקוסיסטם בידע ותובנות, אם אתם רוצים לשאול אותנו משהו, אם אתם מרגישים שיש משהו שעזר לכם וכולם צריכים לדעת, נשמח לשמוע. 
כתבו לנו
iconשאלות / פידבק
icon
המייל נשלח!
נותרו: 0 מיילים לחודש. מתחדש ב-1 לחודש
סגור
icon
הפגישה נקבעה!
נותרו: 0 פגישות לחודש. מתחדש ב-1 לחודש
סגור
סגור
icon
הבקשה שלך התקבלה, תודה :)
אנחנו עוברים על כל הפרטים, ובקרוב ניצור איתך קשר בנוגע לשולחן העגול.
סגור
icon
קיבלנו את בקשתך לפתיחת שולחן עגול!
נעבור על הבקשה ובימים הקרובים ישלח אליך מייל אישור והשולחן יופיע ברשימת השולחנות העגולים.
סגור

שליחת מייל

שליחת מייל למשקיע/ה