זאת השנה הרביעית שלי בתור הCTO של Microsoft for Startups, ואני לא יכול להיות יותר נרגש לספר על המהפכה שאני חי כבר לא מעט זמן, כמעט מהשקעה הראשונית שמיקרוסופט עשתה בחברה קטנה בשם OpenAI ב2019. במסגרת התפקיד במיקרוסופט אני פוגש ומייעץ להמון יזמים מוכשרים וכך גם בתור מרצה לAI באוניברסיטה, על השינויים, המגמות וההזדמנויות שנוצרו בעקבות התפתחות הבינה המלאכותית, בפוסט הזה ננסה להבין לאיפה נושבת הרוח ונבין את השלבים הבאים מעבר לפינה.
OpenAI פרץ לחיינו בסערה בנובמבר עם יציאתו של CHATGPT ומאז אני נתקל בהמון סטרטאפים שמנסים לחקות או לשחזר את הפתרון בתעשיות שונות.
הבולטים שביניהם ואלו שיצליחו, לא יהיו החברות שייצרו את טקסט לטקסט הבא - המוצר כבר קיים ,וכמובן שהשוק רווי במתחרים, ובטכנולוגיה כמו בטכנולוגיה, מי שמגיע ראשון הוא זה שקובע את הטון 😊
אז מה כן? איך אפשר לנצח את השוק? מה אפשר לעשות כדי להתבלט?
למזלנו אנחנו חיים בעידן שרק התחיל וכמות החדשנות בו גדולה, וכאן אני רוצה לנצל את הבמה לדבר על החשיבות של שימוש בבינה המלאכותית ב-Multi Modality ליצירת חדשנות.
Multi Modality היא גישה שבה אנחנו משלבים מספר מודלים או טכניקות לפתרון של בעיה אחת. הגישה הזו מאפשרת לסטרטאפים להגיע לפתרונות יעילים וחדשניים שלא היו אפשריים באמצעות שימוש במודל אחד בלבד. כאשר משלבים מספר מודלים, ניתן לקבל תובנות מגוונות יותר ולהבין את הבעיה מזוויות שונות בכך ליצר פתרונות יעילים יותר וגם חדשניים.
כמה מהתכונות הבולטות של OPEN AI, היכולת ליצר טקסט באמצאות GPT, היכולת ליצר תמונה באמצעותDALL·E 2 , ליצר קוד באמצעות CODEX וגם לתמלל גם קול בכמעט כל שפה (אפילו במבטאים מחרידים במיוחד ללא שום בעיה באמצעות WHISPER).
בוא ניקח לדוגמא את GPT ונבין מה GPT ודומיו עושים טוב ומה הם לא: הם מאוד טובים בלקחת טקסט ולהכניס אותו לתבניות חדשות - קבצי אקסל, וורד וכמובן שכולנו כבר חודשים לא ענינו למייל בעצמנו.
מה שכן, מעט אנשים יודעים שGPT4 הוא למעשה מנוע מולטי מודלטי ואפשר להזין לתוכו גם תמונות ולתשאל אותם כפי שהדגמתי בסרטון. אז איך אפשר כבר היום ליישם את כל הטוב הזה בסטרטאפ שלכם?
הנה 5 יישומים של מולטי מודליטי שיטעינו את הסטרטאפ שלכם בכוחות על! (וללא שימוש בעכבישים רדיואקטיביים!)
- ביומיום אנחנו מצלמים ומעבירים המון מידע ויזואלי, אז למה שלא ננצל את זה ונתשאל את התמונות כמו שאנחנו שואלים חבר? זה יכול להיות תמונה של אוכל במקרר ונשאל את AI מה אפשר להכין מהם? תמונה של גרף מאקסל שנרצה להבין ממנה תשובות בשפה חופשית, מצלמת אבטחה שנרצה לדעת אם השליח הגיע היום או לא?
- אתם רוצים לנתח את התהליכים בארגון? יש לכם דאטה כמו תיעוד שיחות? ניתן להשתמש בהקלטות של שיחות מכירה או שירות לקוחות כדי לייעל תהליכים בארגון. איך? ממירים אותם לטקסט ואת הטקסט הזה ניתן להזין לCRM, ומשם יהיה ניתן לנטר, לנתח ובעיקר להגיע לייעול מקסימלי של התובנות שלנו ושל הלקוחות.
3. בתור איש ויזואלי אני הולך לאיבוד במחוזות הטקסט, למזלי אפשר לייצר לא רק תמונות מצחיקות (שאף פעם אין מהן מספיק כמובן...), אלא, גם להסביר תהליכים מאוד מורכבים בצורה ויזואלית כפי שהדגמתי בסרטון, והנה, אנשי התמיכה הטכנית יכולים להמחיש פתרון תקלה ללקוח באמצעות סרטונים או תמונות שמופיעות באופן כמעט מיידי!
והתשובה:
4. למה רק ליצור תמונות? כבר היום אפשר לקחת תמונה קימת ולשנות אותה! תחשבו על עולם שבו אתם רוצים לנסות כמה גרסאות של מסך האפליקציה שלכם לפני שאתם הולכים לפיתוח.
למה לא לבקש מה AI לקחת את התבנית הראשונה שיצרתם ולהכין עוד 8 גרסאות בטכניקת CRAZY 8? או אפילו להוסיף לMONA LISSA MOAHK?
5. שלבו כמה שיותר! לדוגמה, במאמר הבא יש הדגמה של שילוב של: טקסט, דובי, תמונה של ניו יורק וקול של גשם שהופכים יחד לסרטון של דובי עושה כיף בניו יורק באמצע סופת גשמים!
https://www.microsoft.com/en-us/research/blog/breaking-cross-modal-boundaries-in-multimodal-ai-introducing-codi-composable-diffusion-for-any-to-any-generation
לצפייה בסרטון שלי על גישת ה-multi modality ואיך היא יכולה לייצר חדשנות שתתן לכם יתרון תחרותי בשוק