בפוסט הקודם, העוסק בכלכלת האלגוריתמים, סקרנו את מצב שוק הביג דאטה ואנליטיקה בעולם ובישראל, עמדנו על הפער בין השוק המקומי לשוק הגלובלי, ותיארנו את המגמות וההתפתחויות הטכנולוגיות בתחום וביניהן גם נושא הבינה המלאכותית, Machine learning ו-Deep Learning. אך מהי המשמעות הפרקטית של ההתקדמויות הטכנולוגיות המשמעותיות האלה? כיצד הן ישפיעו הלכה למעשה על השימוש באנליטיקה בארגונים כיום ובעתיד הקרוב?
נראה שבטווח הביניים, 2-3 שנים קדימה, השימוש העיקרי בטכנולוגיות הבינה המלאכותית יהיו בעזרה למשתמש האנושי – ל Data Scientist שכיום "מבזבז" מעל מחצית זמנו על הכנת הדאטה לתחקור (Data engineering) וכעת יתפנה לעסוק יותר באלגוריתמים עצמם; וכמו כן, וכאן כנראה החדשות ה"מרעישות", לאנליסטים בארגון (גרטנר מכנים אותם Citizen Data Scientists), אלה אנליסטים שעוסקים בדאטה ובתחקור אשר יש להם מעט הבנה סטטיסטית (לא צריכים להיות Data Scientists "על פי הספר") ואלה כבר חדשות של ממש, כי זה אומר שיותר אנשים בארגון יוכלו לעסוק באנליטיקה – חסם אשר עד כה היה משמעותי מאוד עבור ארגונים.
אנו גם צופים שאותה מגמת Self service ו Data discovery שפגשה את תחום ה- Business Intelligence והנגישה אותו עבור יותר משתמשים בארגון, כעת תפגוש גם את תחום האנליטיקה ותיצור קטגוריה חדשה אליה מנהלי נתונים ואנליטיקה ייאלצו להידרש – Insights discovery (נקודת המפגש בין אנליטיקה, machine learning וויזואליזציה).
יש שיסתכלו על התקדמויות טכנולוגיות אלה כ"איום" והשתלטות על תפקידים אנושיים, אנחנו מעדיפים לראות בכך הזדמנות להעצמת האנליסטים בארגון.
שכבות הדאטה וניהול הנתונים
גם בתחום הנתונים ישנן מספר מגמות אשר מאפשרות את אותה "פתיחות של מידע" המהווה את הבסיס לאלגוריתמים החדשניים. מדובר על מגמות של פתיחות בהקשר של הכלים שנמצאים בשימוש והן בשימוש עצמו.
מגמה ראשונה הנה החזרה לבמה של כלים אשר מבצעים מניפולציה על מקורות של מידע – data virtualization tools. כלים אלו מאפשרים לאגד מידע ממקורות שונים, כגון טבלאות ממסדי נתונים, קבצים סדרתיים וכד', תוך אפשרות "ללוש את הנתונים" כאילו היו פלסטלינה. לדוגמה ניתן לקחת מספר שדות מטבלה אחת, לאחד אותן עם סיכומים של נתונים מתוך קובץ סדרתי תוך ביצוע מניפולציות נוספות כאשר התוצאה מוגשת בתור טבלה וירטואלית לכלי ה- BI והאנליטיקה. כל זאת באופן מיידי ונגיש (ללא תכנון מראש כפי שהיה מקובל בעידן ה- data warehouse). ככל שהארגונים ישכילו להשתמש באופן דינאמי בנתונים תוך ניצול אלגוריתמים מתקדמים- הדרישה לכלים מתחום ה- data virtualization (או כפי שנקראו קודם – data federation) תעלה.
מגמה נוספת המסמנת פתיחות הנה מעבר הדרגתי ל- polyglot data או polyglot persistenceשמשמעו שימוש בטכנולוגיות רבות של מסדי נתונים באותה סביבה אפליקטיבית. מונח זה הוזכר לראשונה על ידי הארכיטקט הידוע Martin Fowler . הסיבה לתופעה זו הנה שימוש גובר ב- microservices שבהם מערכות אשר פעם היו מפותחות כמקשה אחת, מפותחות כעת בחלקים (כל חלק נקרא microservice). פיצול זה מאפשר גם להשתמש בטכנולוגיה מיטבית של מסד נתונים לכל חלק במערכת. לדוגמה, במערכת מסוימת נראה שנתוני הלקוחות נמצאים ב- mssql, נתוני הספקים ב- oracle והיסטוריית הפעולות נמצאת ב- mongo. הדבר גורם לכך שהאנשים המקצועיים שאחראים על הטיפול בנתונים צריכים להכיר הרבה יותר טכנולוגיות.
לכן, מסדי נתונים וכלים תומכים שנמצאים בענן הופכים ליותר ויותר רלוונטים. ככל שהארגונים ישכילו להשתמש בענן הציבורי והפנימי יותר, כך גם יגבר השימוש בטכנולוגיות נתונים שנמצאות בענן ובמקביל יגבר גם הצורך לסנכרון נתונים ותהליכים בין המערכות שמותקנות ב- data center של הארגון לבין המערכות המופעלות בעננים השונים.
טכנולוגיות ה- no sql dbms גורמות גם לשינוי יחסים בין אנשי הנתונים (ה- dba) לבין המפתחים. אם בעבר המפתחים היו נדרשים לשירותי ה- dba בכל שינוי שרצו לעשות ברמת הנתונים, הרי שכעת עם השימוש ב- no sql dbms (הנתונים נרשמים בתור סכמות xml), שינוי בסכמה לא מחייב מעורבות ישירה של ה –dba. במקביל הידע של ה- dba צריך להיות רחב יותר ועליו להכיר טוב יותר מאשר בעבר טכנולוגיות פיתוח מתקדמות.
גם מבחינה עסקית ישנה בתחום רוח של פתיחות. כניסה של טכנולוגיות חדשות בתחום ה- no sql , שימוש מוגבר בטכנולוגיות מבוססות קוד פתוח בתחום המסורתי של מסדי נתונים רלציונים והן אופציה חדשה של קבלת תחזוקה למסדי נתונים מסחריים על ידי גורמי צד שלישי כגון rimini street ו- spinnaker support. אנחנו רואים מגמה של פתיחות בשכבות הנתונים אשר תסייע לארגונים למצות את המידע באופן רחב יותר ולהוות פלטפורמה מתקדמת יותר לאלגוריתמים עסקיים חדשניים.
לסיכום, כיום ההתפתחויות הטכנולוגיות בתחום הביג דאטה ואנליטיקה מקדימות בהרבה את יכולת ובשלות הארגונים לעכל אותן. ארגונים אשר יצליחו ליצור תרבות המאפשרת התנסויות עם שיטות חדשות, תרבות המשאירה מקום לטעויות תוך יצירת תהליכים תומכים לביצוע נסיונות רבים במקביל על מנת לתפוס את אותו ניסיון שכן יצליח, ארגונים אשר יצליחו לגדל את ה"דור הבא" של האנליסטים וה Data scientists בארגון, אותם ארגונים יוכלו ליהנות מאותן התפתחויות טכנולוגיות מרחיקות לכת שמאפשרות כיום, באופן לעתים מעט מרתיע, לעשות כמעט כל דבר, ולקבל החלטות פשוט הרבה יותר חכמות וטובות. מי הם אותם אלה אשר יקחו את ההחלטה בסופו של דבר? אנשים? רובוטים? שילוב? כנראה שכל התשובות נכונות.
ניתן לצפות במצגת המלאה של עינת שמעוני ופיני כהן, עליה מבוסס הפוסט כאן.