חברת הסייבר CrowdStrike, שהובילה לקריסת מערכות מחשב ברחבי העולם, זיהתה פגם בבקרת האיכות שהוביל לתקלה. בבלוג זה נבחן מה קרה, מה הלקחים שנלמדו ומהן האסטרטגיות לעתיד בתחום הבדיקות.
חברת הסייבר CrowdStrike שאחראית לקריסת מערכות מחשב של משתמשי Windows ברחבי העולם, זיהתה פגם בבקרת האיכות שגרם להשבתות עבור מיליוני משתמשים.
ב-24 ביולי 2024 פרסמה החברה דו"ח תקרית שמצא באג בכלי בקרת איכות ששימש לבדיקת עדכוני מערכת. מיליוני מכשירים נפגעו כתוצאה מההשבתה, שהתפשטה בין סקטורים שונים כמו תעופה, בריאות ועוד. הבעיה העיקרית הייתה שגיאת NULL pointer בזיכרון, שהובילה למסכי המוות הכחולים.
ההשבתה עוררה שיח עולמי והציפה את הצורך בבחינת יכולות התאוששות מאסון ותוכניות המשכיות עסקית. היא גם העלתה שאלות לגבי כמות הבדיקות שמבוצעות בארגונים והאפקטיביות שלהן לפני שעדכונים מועלים למערכות חיות.
קריסת המערכת הגלובלית: מה בדיוק קרה?
בשעות הבוקר המוקדמות של ה-19 ביולי 2024, התברר כי תקלה טכנית משמעותית פגעה בתשתיות ושירותים ברחבי העולם, כאשר מגזרים כמו בריאות, פיננסים, בנקאות ותעופה הושפעו מהתקלה.
מקור התקלה היה בחברת הסייבר CrowdStrike שאישרה שהבעיה נבעה מ"פגם" בעדכון תוכן למשתמשי Microsoft Windows.
לדברי מנכ"ל CrowdStrike, הפגם נגרם מ"פגם בעדכון תוכן בודד עבור משתמשי . ווינדוס
בפשטות, מדובר היה בפגם בעדכון תוכנה שהופץ ללקוחות CrowdStrike המשתמשים במחשבי ווינדוס.
הכאוס שנוצר היה נרחב ועמוק: טיסות קורקעו, רשתות רכבות קרסו, שירותי בריאות נפגעו, כולל מרפאות ומערכות לאיסוף תרופות, ומערכות תשלום מקוון הושבתו – אפילו הבורסה בלונדון הושפעה. גם ערוצי שידור כמו Sky News בבריטניה הושפעו, מה שאילץ אותם להפסיק את שידוריהם.
בארה"ב, רוב הטיסות בוטלו במהלך סוף השבוע. חברת Delta Airlines נפגעה בצורה חמורה מההשבתה, כאשר יותר מ-5,000 טיסות הושפעו.
הפגם בעדכון גרם לקריסות מחשבים רבים שהציגו את מסך המוות הכחול המפורסם והפכו לבלתי יציבים. ברחבי העולם, תשתיות IT במוסדות וארגונים רבים קרסו, מה שהוביל להשבתת המערכות המקוונות שלהם.
תגובת CrowdStrike לאירוע
מנכ"ל, CrowdStrike ג'ורג' קורץ, הצהיר בזמן התקלה כי החברה "עובדת באופן פעיל" עם הלקוחות שנפגעו. הוא אישר שההשבתה לא הייתה "תקרית אבטחה או מתקפת סייבר", שהבעיה "זוהתה" ו"בודדה" וש"פתרון הוטמע". עם זאת, הוא הפציר בלקוחות להמשיך לבדוק את פורטל התמיכה של CrowdStrike לעדכונים וסיוע, והוסיף כי הצוות שלו "מגויס באופן מלא להבטיח את אבטחת הלקוחות ויציבות המערכות".
כתוצאה מהתקלה, מניית CrowdStrike צנחה, ובדוח שפרסמה החברה היא ציינה שתבצע בדיקות נוספות לעדכונים מסוג זה לפני הפצתם. בנוסף, החברה תשתמש באסטרטגיה של Canary Deployment שבה העדכונים יופצו תחילה לקבוצות משתמשים קטנות כדי לזהות בעיות לפני הפצה רחבה יותר.
חשוב גם לבודד עדכונים לפני הפריסה כדי לוודא שהם לא גורמים לקריסות מערכות, ובכך לאפשר בדיקות יסודיות לפני הפצה למערכות גדולות יותר.
לקחים שנלמדו מהאירוע
כמומחים עולמיים להנדסת איכות ובדיקות תוכנה, אנו מבינים את החשיבות הקריטית של שלושת מרכיבי CIA (Confidentiality, Integrity, Availability).
האירוע פגע באופן חמור במרכיב הזמינות ב- CIA שהוביל להפסדים כלכליים אדירים ולפגיעה במוניטין של חברות רבות ברחבי העולם. הוא מהווה קריאת השכמה לארגונים להעניק עדיפות לפרקטיקות הנדסת איכות מתקדמות. מה ניתן היה לעשות ומה ניתן לעשות בעתיד כדי להימנע מאירועים דומים?
האירוע מספק שיעורים חשובים לעתיד:
בדיקות קבלה תפעוליות אפקטיביות: בדיקות קבלה תפעוליות אפקטיביות בסביבה דמוית ייצור הן קריטיות. עליהן לכלול לא רק את ההיבטים הפונקציונליים אלא גם תאימות, ביצועים ואבטחה לפני פריסה לסביבה חיה.
תוכניות המשכיות עסקית והתאוששות מאסון: ארגונים צריכים להחזיק בתוכנית המשכיות עסקית מסודרת ומנגנוני התאוששות מאסון כדי להבטיח שקריסות לא יפגעו בעסקים, ושארגונים יוכלו להתאושש במהירות מאירועים מסוג זה.
פריסה/הפצה רציפה: ארגונים צריכים להחזיק בתהליכי פריסה רציפה עם מנגנוני בקרת איכות כדי לגלות באגים בקוד מוקדם ולהבטיח אפשרות חזרה לאחור במידת הצורך.
הערכת סיכונים: חשוב ליישם מסגרת הערכת סיכונים שתבחן את הסיכונים הבטיחותיים של כל פריסה ותגדיר אסטרטגיית בדיקות מותאמת לצמצום הסיכונים.
זיהוי באגים מוקדם כדי להימנע מהשבתות
התקרית הגלובלית של CrowdStrike מדגישה את תפקידן הקריטי של בדיקות לאורך מחזור חיי הפיתוח. בדיקות יסודיות ומערכותיות מזהות בעיות פוטנציאליות מוקדם ומבטיחות שמוצרים ומערכות יהיו אמינים, מאובטחים וידידותיים למשתמש.
זיהוי בעיות בשלב מוקדם חוסך זמן ומשאבים ומגן על המוניטין של חברות כמו CrowdStrike.
השקעה בהנדסת איכות חזקה היא הכרחית להבטחת מוצרים איכותיים שעומדים בציפיות המשתמשים ואף עולים עליהן, תוך מניעת אירועים קריטיים. ארגונים חייבים לתת עדיפות להנדסת איכות כדי לשמור על אמון ואמינות בקרב לקוחותיהם.