ניתוח הפסקות AWS - לקחים בעמידות ענן ותפקיד GSLB

5 בנובמבר, 2025 | Miscelanea

On אוקטובר 20, 2025, Amazon Web Services (AWS) - ספקית הענן הגדולה בעולם - סבלה הפסקת חשמל משמעותית באזור US-EAST-1 (צפון וירג'יניה) ששיבשו שירותים ברחבי העולם במשך כמעט 24 שעות. האירוע הדגיש את התלות הקריטית של תשתית האינטרנט המודרנית בספק ענן יחיד והצית מחדש דיונים על חוסן, יתירות ואסטרטגיות מרובות עננים.

סקירת אירוע

מִקרֶה: שיעורי שגיאות והשהיות מוגברים
איזור: ארה"ב-מזרח-1 (צפון וירג'יניה)
משך הפעילות: 19 באוקטובר, 11:49 – 20 באוקטובר, 3:01 (שעון PDT)
חומרה: השתבש
סיבה ראשונית: כשל פתרון DNS בנקודת הקצה של DynamoDB
שירותים מושפעים: מעל 140 שירותי AWS כולל EC2, Lambda, S3, DynamoDB, CloudWatch, Redshift ועוד.

ציר זמן וניתוח גורמי שורש

הפסקת החשמל החלה בשעות המאוחרות אוקטובר 19, 2025, כאשר מהנדסים זיהו שיעורי שגיאות מוגברים במספר שירותי AWS. חקירות ראשוניות הצביעו על כך אמזון דינמו, שירות בסיס נתונים מרכזי המפעיל יישומים פנימיים ויישומים של לקוחות רבים. על ידי 12:26 AM PDT, AWS זיהתה שהבעיה נובעת מ- עדכון DNS פגום מה ששיבש את פתרון נקודות הקצה - ובכך למעשה שבר את "ספר הטלפונים" שמפנה שירותים ליעדיהם.

כשל ה-DNS גרם לשרשרת של שגיאות מערכת תלויות:

  • השקות מופע EC2 נתקע עקב תלויות ב-DynamoDB.
  • בדיקות תקינות של מאזן עומסי הרשת נכשל, וגרם לאובדן קישוריות בין שירותים כמו Lambda, SQS ו-CloudWatch.
  • עדכוני IAM ו טבלאות גלובליות של DynamoDB גם סבלה מעיכובים עקב תלות באזור שנפגע.

מהנדסי AWS יישמו אמצעי הפחתה במקביל: ניקוי מטמוני DNS, הגבלת השקות מופעי EC2 ושחזור הדרגתי של קישוריות הרשת. 2:24 AM PDT, בעיית ה-DNS העיקרית נפתרה, אך בעיות ברשת ובתת-מערכת EC2 נמשכו עד הבוקר. ה- תת-מערכת בריאות מאזן עומסי רשת התאושש לחלוטין על ידי 9:38 AM PDT, עם נרמול השירות הסופי בשעה 3:01 PDT.

היקף ההשפעה

ההשפעה הייתה נרחבת, והשפיעה הן על שירותים ארגוניים והן על פלטפורמות צרכנים פופולריות ברחבי העולם. יותר מ 140 שירותי AWS היו פגומים, כולל:

  • מחשוב ורשתות: EC2, ECS, EKS, איזון עומסים אלסטי
  • נתונים ואחסון: DynamoDB, S3, RDS, Redshift, ElastiCache
  • ללא שרת: פונקציות למבדה, EventBridge, SQS ו-Step
  • אבטחה וניהול: IAM, ארגוני AWS, CloudTrail, הגדרות
  • כלים למפתחים: בניית קוד, אמפלפיי, אפליקציית סינכרון, קלאודפורמציה

ההפרעה החריפה מעבר ללקוחות AWS. פלטפורמות גלובליות כמו סנאפצ'ט, פורטנייט, רובלוקס, קוינבייס, ונמו, ואפילו שירותי פריים וידאו ורינג של אמזון עצמה חוו שיבושים. מוסדות פיננסיים כמו לוידס והליפקס דיווחו על בעיות כניסה, ופורטלים ממשלתיים נותקו זמנית מהאינטרנט. כאשר AWS החזיקה בערך 33% מנתח השוק העולמי של תשתיות ענן, השפעת האדווה של האירוע הייתה חסרת תקדים.

לקחים בתלות בענן

אירוע זה מדגים אתגר מרכזי בארכיטקטורת הענן המודרנית: תלות באזור יחידלמרות תכנון אזורי הזמינות הרב-תחומיים של AWS, מערכות גלובליות רבות נותרות מעוגנות אזורית - במיוחד עבור מזרח ארה"ב 1, אשר מארח מספר רב של נקודות קצה של מישור בקרה ו-API גלובליים.

למרות שלא הייתה מעורבת מתקפת סייבר, האירוע חשף כיצד שגיאת תצורה פנימית בשירות בסיסי יחיד (DNS במקרה זה) יכולה להתפשט על פני מערכות תלויות, ולשתק את הפעילות הגלובלית.

RELIANOIDנקודת המבט של: השגת זמינות גבוהה אמיתית עם GSLB

At RELIANOIDאנו מאמינים כי חוסן בסביבות ענן חייב להיות מעבר לעודף בתוך ספק יחיד. איזון עומסי שרתים גלובלי (GSLB) הפתרון מבטיח זמינות רציפה גם כאשר ספק ענן גדול או אזור חווים הפסקת חשמל.

איך RELIANOID GSLB מסייע במניעת הפסקות כאלה

  • המשכיות מרובת עננים ורב-אזורים: GSLB מפזרת באופן חכם תעבורה בין אזורים או ספקים עצמאיים (למשל, AWS, Azure, GCP, on-premise), ומבטיחה המשכיות שירות במהלך תקלות אזוריות או ברמת הספק.
  • ניטור בריאות בזמן אמת: בדיקות רציפות של נקודות קצה מאפשרות ניתוב אוטומטי של תעבורה לצמתים תקינים, ובכך מזעור זמן השבתה במהלך אירועים כמו כשלים בנקודות קצה של DNS או API.
  • איזון עומסים חכם של DNS: RELIANOIDמערכת GSLB מבוססת DNS של פותר באופן דינמי בקשות לקוח למרכזי נתונים אופטימליים, ובכך מפחיתה סיכונים הקשורים לתצורה שגויה של DNS או עיכובים בהפצה.
  • גיבוי והחלמה חלקים: בעזרת מדיניות כמו ניתוב משוקלל (Sround Robin), ניתוב מבוסס השהייה (Latency-based routing) ומודעות למיקום גיאוגרפי, GSLB שומר על עקביות השירות וממזער שיבושים אפילו בפריסות מורכבות מרובות אזורים.

יישום GSLB כחלק מאסטרטגיית זמינות גבוהה רחבה יותר מנתק יישומים קריטיים לעסקים מהתלות התפעולית של ספק יחיד. בין אם בעיה נובעת מפתרון DNS, בדיקות תקינות רשת או כשלים פנימיים ב-API, GSLB מספק מנגנון שקוף לגיבוי אוטומטי וחוויית משתמש רציפה.

סיכום

השמיים הפסקת AWS US-EAST-1 באוקטובר 2025 משמש כתזכורת רבת עוצמה: אפילו תשתיות הענן המתקדמות ביותר עלולות להיכשל. חוסן אמיתי דורש עצמאות אדריכלית, מנגנוני גיבוי פרואקטיביים ואיזון עומסים גלובלי חכם.

RELIANOIDGSLB של חברת GSLB מספקת את החוסן הזה - ועוזרת לארגונים להבטיח זמן פעילות, אמינות ואמון, ללא קשר למקור ההפרעה הבאה.

למידע נוסף על GSLB ואסטרטגיות זמינות גבוהה.

בלוגים קשורים

פורסם על ידי משתמש חוזר | 09 ביוני 2026
ככל שארגונים ממשיכים להאיץ את יוזמות הטרנספורמציה הדיגיטלית, הקשר בין אבטחת סייבר, אספקת יישומים וחוסן תשתיות הפך להיות מחובר יותר מאי פעם. האימוץ המהיר של בינה מלאכותית, עלייה בשימוש ב-API...
347 Likesתגובות כבויות על דופק שוק ADC ואבטחת סייבר לשנת 2026: המגמות המעצבים מחדש את אספקת היישומים והאבטחה שלהם
פורסם על ידי משתמש חוזר | 28 במאי 2026
הנוף הדיגיטלי מתפתח במהירות, ועסקים חייבים להבטיח שהאתרים והאפליקציות שלהם מספקים ביצועים חלקים. אחת הדרכים היעילות ביותר להשיג זאת היא באמצעות טעינה...
552 Likesתגובות כבויות על הבנת איזון עומסים: אופטימיזציה של ביצועים ואמינות
פורסם על ידי משתמש חוזר | 25 במאי 2026
יישומי IT מייצגים בכלכלה הכחולה בדיוק כפי שאמדאוס שינתה את מגזר התעופה עם פלטפורמות דיגיטליות, הכלכלה הכחולה חווה גל של חדשנות דיגיטלית. להלן כמה...
602 Likesתגובות כבויות על יישומי IT של הכלכלה הכחולה: מנמלים חכמים ועד ניטור דיג - וכיצד RELIANOID אמינות ואבטחה של כוחות