ד״ר לימור זיו ,
מנכ״לית Humane AI
AI חכם מתחיל בדאטה חכם
2025-04-29
•
5 דקות קריאה
בעולם ה-AI יש אמת חשובה והיא: ״Garbage In, Garbage Out״ (GIGO). או במשפט ברור: המודל שתפתחו לעולם לא יהיה טוב יותר מהנתונים שהזנתם לתוכו. זהו עיקרון מרכזי בפיתוח מוצרים ושירותים מבוססי AI. הוא משקף מציאות כואבת, שחברות וצוותים מגלים לעיתים בעוצמה כשהמערכת כבר מייצרת תוצאות כושלות, מוטות או מביכות: גם המודל המתקדם ביותר ייכשל אם הבסיס עליו הוא נשען רעוע.
- נתונים חלקיים? תקבלו תחזיות מוטות
- דאטה רווי ״רעש״? תוצאות אקראיות
- שימוש במידע מיושן? החלטות מנותקות מהמציאות
אבל מה זה בעצם AI?
בגדול, כל מערכת AI נשענת על שני עמודי התווך הבאים:
1. המודל
עמוד התווך הראשון הוא המודל. המודלים המתקדמים (ה- Foundation Models כמו אלו של Meta, Google, Microsoft ונוספים) מפותחים על ידי חברות הטק הגדולות, בשל העלות האדירה של האימון והתחזוקה. מרבית החברות משתמשות במודלים אלו ולמעשה הן תלויות במודל שלא הן פיתחו, ללא שליטה מלאה על תהליך קבלת ההחלטות שבו, ולעיתים גם ללא הבנה מעמיקה של אופן פעולתו.
למה זו בכלל בעיה?
לחברות המפתחות מוצרי AI אין שליטה מעשית על המודלים, מאחר והם מגיעים במבנה של "קופסה שחורה" (1): אנחנו רואים את הקלט ואת התוצאה, אבל לא יודעים בדיוק מה קורה בתהליך שביניהם, ובתוך כך אנחנו לא מבינים כיצד המודל מקבל החלטות או מספק המלצות. רמת השקיפות של המודלים ירודה ביותר (3,2) (הציון הממוצע עומד על 58 מתוך 100 במדד השקיפות האחרון). גם האפשרות להתחקות אחר המחשבה של המודל באמצעות ה-Cot) Chain of thought) לוקה בחסר משמעותי(4).
מה כל זה אומר לגבינו?
בוודאי נתקלתם בהלוזינציות, מצבים בהם המודל הוזה ומספק ללקוח תשובה מעוותת, שגויה או מעליבה שאינה משרתת את החברה (Hallucination, bullshitting, confabulation or delusions) (5). אבל המצב עלול אפילו להיות גרוע מכך, לעיתים, הפלט הסופי עלול ממש לצאת משליטה.
הנה שתי דוגמאות מרתקות מהתקופה האחרונה:
בינואר האחרון, המודל o1-preview של OpenAI קיבל משימה: לנצח במשחק שחמט. ואכן, הוא ניצח. אבל איך הוא עשה את זה? במקום לשחק לפי הכללים, המודל זיהה פרצת אבטחה, פרץ לקובץ המשחק, שינה את מיקומי הכלים ובנה לעצמו יתרון. הכל בעבור הניצחון הנכסף. במילים אחרות, הוא לא פתר את האתגר אלא עקף אותו. מצב כזה בו המודל משקף ״עצמאות מחשבתית״ עלול להיות מאד בעייתי אם אנחנו רוצים לבנות מוצר המספק תחזיות צפויות (6).
במקרה אחר, הצ'אטבוט של Character.AI הביא להתאבדותו של סוול סצ׳ר בן ה-14.(7). על פי התביעה שהוגשה כנגד החברה, הנער פיתח קשר רגשי עמוק עם הצ'אטבוט. במקום שהצ׳ט בוט ימנע ממנו להתאבד כאשר הוא חושף את נטייתו האובדנית, הוא דווקא מעודד אותו לפעול, לקחת את נשקו של אביו, וליטול את חייו.
האירועים הללו מעלים שאלות רבות וחשובות. אחת מהן, הרלוונטית במיוחד לחברות המפתחות מוצרי ושירותי AI, היא: איך אנחנו מצליחים לשלוט במערכות הללו? כשהמטרה לנגד עינינו היא בניית מוצר אמין, בטוח לשימוש, העונה על הצרכים העסקיים של החברה.
והנה, הגענו לעמוד התווך השני של מערכות AI:
2. הדאטה
דאטה הוא הלב הפועם של מערכות AI.
פרופ' אנדרו אנג׳י (Andrew Ng), מרצה לבינה מלאכותית מאוני׳ סטנפורד ומייסד DeepLearning.AI, מדגיש כי כ-80% מזמן פיתוח מערכות AI מושקע בהכנת הדאטה, במטרה להבטיח שהוא איכותי ומותאם לשימוש. לדבריו, זו המשימה הקריטית ביותר עבור צוותי AI בכל חברה (9).
טיוב דאטה איטרטיבי מאפשר פיתוח מוצרים חכמים ומהימנים, המספקים ערך ללקוחות ומאפשרים זיהוי ותיקון מהיר של תקלות. גישה ממוקדת-נתונים מבטיחה שימוש אך ורק במידע רלוונטי ואיכותי, המשפר דיוק ואמינות בתוצאות הסופיות. במילים אחרות, איכות דאטה גבוהה משפיעה ישירות על הביצועים, הדיוק והאמינות של מודלי AI. נתונים איכותיים מאפשרים למודלים ליצור תחזיות טובות יותר ולהניב תוצאות אמינות יותר, תוך טיפוח אמון וביטחון בקרב המשתמשים.
אחד האתגרים המשמעותיים של כל חברה הוא ״פער הפרודקשן״: הקושי של מודלים לספק תוצאות אמינות ב״חיים האמיתיים״. כשבוחנים מקרוב, אפשר לזהות סיבה מרכזית לכך, והיא מתן תשומת לב נמוכה של החברה והשקעה מצומצמת בטיוב הדאטה.
בכל אירוע בו מעורב מודל AI - שליטה בדאטה היא המפתח לביצועים אופטימליים. רבות מדובר לאחרונה על LLM evals (10). עם זאת, אם נפעל עוד קודם לכן להערכת הדאטה שברשותנו, בהכרח נשפר את ביצועי המודל ואת המוצר הסופי.
העלות האמיתית של דאטה באיכות ירודה
כשחברות בונות מוצרי AI לעיתים הן לא מביאות בחשבון את ההשלכות הכלכליות והעסקיות שעלולות להתממש בשימוש בדאטה ירוד, שעלולות להגיע למיליוני דולרים בשנה11. כאשר המוצר שבנינו מבצע תחזיות שגויות או המלצות מוטות, הדבר שוחק את האמון בין המשתמשים ובעלי העניין. ארגונים מתמודדים גם עם ביקורת רגולטורית הולכת וגוברת סביב הוגנות ושקיפות המוצרים שלהם, כאשר איכות נתונים ירודה נמצאת לעתים קרובות בשורש בעיות התאימות.
5 עקרונות לדאטה איכותי במערכות AI
טיפול באיכות הדאטה הוא לא רק ה״שלב מקדים״ בפיתוח, אלא היסוד שעליו ייבנה (או יקרוס) כל מודל. אם נזין את המערכת בדאטה פגום, חלקי או מוטה - כל אלגוריתם, מתוחכם ככל שיהיה, יתקשה מאד להביא תוצאה איכותית.
אז איך אנחנו מוודאים ומוודאות שהדאטה שלנו מטויב ומוכן לשימוש מוצלח? הנה חמש פעולות שמהן אפשר להתחיל:
1.מעבר מחשיבה ריאקטיבית למיינדסט פרואקטיבי בניהול דאטה
אחד האתגרים הגדולים הוא טיפול בדאטה באופן תגובתי. כלומר, טיפול בבעיות רק אחרי שהן כבר מתגלמות במוצר. טיוב דאטה דורש התנהלות פרואקטיבית: הקמת מנגנוני ניטור, בקרת איכות שוטפת ובחינת מקורות הדאטה עוד בשלבים הראשוניים של בניית המוצר. חשוב להבין: הדאטה ״פוגש״ את המערכת כמעט בכל שלב של ה-AI Lifecycle, לכן כל שיבוש בשלבים הראשונים עלול להכות גלים בשלבים מתקדמים יותר.
2. ניקוי הדאטה - לא רק ניקוי ״טכני״ אלא גם מותאם ליוז-קייס
בכל מאגר דאטה מסתתר ״רעש״: ערכים חסרים, כפילויות, שגיאות. ניקוי בסיסי הוא הכרחי, אבל הוא לא מספיק. הניקוי חייב להיעשות גם מתוך הבנה עמוקה של היישום הספציפי. נתונים לא רלוונטיים ליוז- קייס הספציפי עלולים להטעות מודל אם לא הותאמו למטרות המדויקות של המוצר. ניקוי ממוקד יוז-קייס הוא חומת ההגנה הראשונה מפני שיבושים ועיוותים בלתי צפויים בתפקוד המערכת.
3. תיוג הדאטה - הקפדה על עקביות ודיוק
תיוג הדאטה הוא למעשה השפה בה אנחנו ״מדברים״ עם המודל. תיוג בלתי עקבי או ״שטחי״ הוא כמו ללמד אדם שפה חדשה בה אותה מילה מתארת חמישה רעיונות שונים, ובהמשך לצפות ממנו להבין ניואנסים. כל סטייה או סתירה קטנה בתהליך התיוג, מייצרת אי-ודאות, מערערת את ביצועי המערכת, ובסופו של דבר מסכנת את אמינות המוצר כולו. הקפידו על תיוג הקטגוריות באופן מדויק ובעל עקביות פנימית, כדי לא להשאיר פתח לניחושים של המודל וטעויות.
4. עדכניות - דאטה ישן מוביל להחלטות מוטעות
בעולם הדינמי שלנו דאטה מתיישן במהירות. גם אם הדאטה היה נכון בעבר, אולי הוא כבר שגוי או בעייתי בהווה. טיוב דאטה יכלול עדכון שוטף של המקורות, כולל מנגנוני בדיקה המסמנים נתונים שהתיישנו, כדי למנוע שימוש במידע לא רלוונטי. מעבר לכך שדאטה עדכני מייצר דיוק של המוצר וערך גבוה יותר ללקוח/ה, הוא גם מאפשר לנו גם לשמור על יתרון תחרותי.
5. בדיקת הטיות - לפני שהן מחלחלות למוצר
אם קיימות הטיות בדאטה - גם המערכת שאנחנו בונים תהיה מוטה. זיהוי מוקדם של תת-ייצוג, הכללות שגויות, או דפוסים מפלים בתוך הדאטה מאפשר לתקן את מקורות המידע / לשקול תיוג מחדש. המחיר של התעלמות מהטיות בשלבים המוקדמים עלול להוביל לפגיעה במשתמשים, באמינות המוצר, ועלול לחשוף את החברה לסיכונים רגולטוריים.
...
לסיכום, אנחנו חיים בתקופה בה מודלים מתעדכנים כל העת ובקצב מסחרר (לעיתים על בסיס יומי ממש!) אבל הדאטה? הוא נותר הנכס האסטרטגי היציב והמתמשך ביותר של כל חברה. אין בעיה עם למהר לאמץ את המודלים העדכניים ביותר, אבל עם זאת, חשוב שנזכור שהטכנולוגיה עצמה אינה קסם. היא מנגנון המשקף במדויק את מה שמזינים אותה, לטוב ולרע. אם הנתונים שלכם חלקיים, מוטים, או רוויים ב״רעש״, התוצאה תהיה כמו מראה מעוותת. המערכת בהכרח תחזיר לכם שיקוף של הכאוס שהכנסתם.
אבל אם הדאטה שלכם מאופטם כדבר שבשגרה, ברכות - אתם במשחק!
מוזמנים ליצור קשר: https://www.linkedin.com/in/limorziv/
רפרנסים:
1. https://www.ibm.com/think/topics/black-box-ai
2. https://arxiv.org/abs/2407.12929
3. https://crfm.stanford.edu/fmti/May-2024/index.html
4. https://openai.com/index/chain-of-thought-monitoring/
5. https://www.theguardian.com/world/2024/feb/16/air-canada-chatbot-lawsuit
6. https://time.com/7259395/ai-chess-cheating-palisade-research
7. https://www.nbcnews.com/tech/characterai-lawsuit-florida-teen-death-rcna176791
8. https://hai.stanford.edu/news/ai-index-2025-state-of-ai-in-10-charts
9. https://www.forbes.com/sites/gilpress/2021/06/16/andrew-ng-launches-a-campaign-for-data-centric-ai/
10. https://medium.com/@carolzhu/all-about-llm-evals-8a155a1235c7 11 https://www.gartner.com/en/data-analytics/topics/data-quality
שתפו את הבלוג:
Startup for Startup אישי
קבלו עדכונים על הנושאים שהכי מעניינים אתכם
שלי Startup for Startup
קבלו עדכון ישר למייל ברגע שיוצא תוכן חדש בנושא.
הירשמו לאיזור האישי
צרו פרופיל אישי באתר ותוכלו להתחבר לאחרים ואחרות, לקבל תכנים מותאמים אישית, ולשמור את התכנים שהכי מעניינים אתכם.
עוד תוכן בנושא:
פודקאסט
28 דק'
06/2025
פרודקטיבי 37: איך עושים רי-דיסקאברי לעולם הבעיה? (ליאור סאסי, Lightricks)
מה קורה כשמוצר שהגיע ל-Product-Market Fit פתאום מאבד רלוונטיות בגלל שינוי תרבותי עמוק? בפרק השבוע, רן ארז מארח את ליאור סאסי, מנהלת מוצר בחברת Lightricks, לשיחה מעמיקה על אחד האתגרים הכי מעניינים בעולמות ה-AI והקריאייטיב.
וידאו
06/2025
איך לייעל את העבודה שלכם עם MCP
וידאו
06/2025
מה זה MCP ולמה זה אמור להיות חשוב לכם
וידאו
06/2025
איך להטמיע MCP במוצר שלכם (דוגמא לAI sales agent)
בלוג
3 דק'
06/2025
כשה-AI פוגש את המרקטינג: איך צוות שיווק קטן יכול לעבוד כמו תאגיד
פודקאסט
27 דק'
05/2025
פרודקטיבי 36: האם הפיצ׳ר המנצח שלנו באמת מנצח?
איך ניגשים לשיפור פיצ'ר קיים עם עומק חדש? איך בודקים אם פיצ'ר באמת משפיע על מטריקות עסקיות? ולמה חשוב דווקא להסתכל על יוזרים שלא מצליחים?
בלוג
4 דק'
05/2025
התאמת האסטרטגיה השיווקית לעידן הבינה המלאכותית היוצרת (Gen AI)
בלוג
3 דק'
05/2025
איך לגרום ל-AI לצטט דווקא אותך? המדריך שהייתי צריכה בתחילת הדרך
פודקאסט
5 דק'
05/2025
בקצרה - איך מנהלים צוות שהיית חלק ממנו?
בפרק הקצר שמבוסס על הבלוג של אוהד אלעל, R&D Team Leader בארטליסט, הוא משתף בתהליך האישי שעבר כשמצא את עצמו מקבל הצעה לנהל את הצוות שלו, למרות שחבריו לצוות ותיקים ממנו בחברה.
וידאו
22 דק'
05/2025
איך להשתמש ב-AI כדי לייצר תוכן טוב בסקייל
וידאו
27 דק'
05/2025
אפטום מרקטינג באמצעות מנועי חיפוש מבוססי AI
בלוג
5 דק'
05/2025
כך ייראו שיחות המכירה בעתיד עם AI – מדריך קצר ופרקטי
הניוזלטר שלנו
הירשמו וקבלו עדכונים על פרקים חדשים, כתבות, אירועים ועוד הפתעות!
רוצים לקחת חלק בשיתוף ידע?
אם גם אתם רוצים להצטרף למשימה שלנו להעשיר את האקוסיסטם בידע ותובנות, אם אתם רוצים לשאול אותנו משהו, אם אתם מרגישים שיש משהו שעזר לכם וכולם צריכים לדעת, נשמח לשמוע.
Startup for Startup