Công ty tình báo mạng Thousand Eyes thuộc sở hữu của Cisco tiết lộ 10 vụ mất điện lớn nhất năm 2021.
Tất cả sự cố mất điện chúng đều mang lại ảnh hưởng đến tất cả mọi người đặc biệt là các nhà cung cấp cơ sở hạ tầng và các doanh nghiệp trong lĩnh vực dịch vụ lớn.
Bài học được rút ra là ?
Các công ty tổ chức cần cẩn thận về việc đặt tất cả các cơ sở hạ tầng của họ vào một khu vực hay họ cần phải chuẩn bị tốt khâu xử lý sự cố mất điện nếu không muốn dịch vụ ngày càng đi xuống.
Angelique Medina là người đứng đầu bộ phận tiếp thị sản phẩm tại Thousand Eyes, đó là một công ty tình báo mạng thuộc sở hữu của Cisco chuyên theo dõi lưu lượng truy cập internet và đám mây, cho biết: “Cần phải lên một kế hoạch sẵn có. "Các tổ chức không cần phụ thuộc vào khả năng dự phòng của bất kỳ một dịch vụ nào hết."
Hai trong số những đợt ngừng hoạt động lớn nhất của năm 2021 bao gồm các nhà cung cấp dịch vụ đám mây như AWS và Azure. Hai nhà cung cấp dịch vụ Internet liên quan là Verizon và Azure. Bốn sự cố liên quan đến các nhà cung cấp CDN và DNS là Akamai, Cloudflare và Fastly. Và đó là những trường hợp ngừng hoạt động vì sự cố mất điện nghiêm trọng nhất trong năm 2021 do công ty Thousand Eyes tổng hợp được.
Sự cố ngừng hoạt động của Facebook không chỉ phá hủy mạng truyền thông xã hội và các dịch vụ khác của công ty như Instagram và WhatsApp. Nhiều doanh nghiệp sử dụng Facebook để xác thực người dùng. Khi dịch vụ đó ngừng hoạt động, người dùng không thể đăng nhập vào các trang web của doanh nghiệp đó nữa.
Vấn đề mạng xuất hiện trong các sự cố định tuyến BGP bị ngừng hoạt động đầu năm 2021. BGP - viết tắt của Border Gateway Protocol được sử dụng để trao đổi định tuyến cho internet và là giao thức được sử dụng giữa các ISP. Chức năng chính của BGP là trao đổi thông tin về khả năng tiếp cận mạng với các hệ thống BGP khác
“Các hacker BGP có thực sự đáng sợ. Nó có thể là một sự cố khó kiểm soát và các tác động nguy hiểm ảnh hưởng đến lưu lượng mà BGP đó kiểm soát “
Danh sách các sự cố mất điện hàng đầu:
1. Facebook: Ngày 4 tháng 10
Sự cố ngừng hoạt động lớn nhất năm 2021 là sự cố ngừng hoạt động của Facebook vào lúc 15:39 UTC ngày 4 tháng 10. Đó là một sự cố xảy ra hơn 7 giờ phạm vi ảnh hưởng đến toàn cầu. Việc ngừng hoạt động của Facebook nó ảnh hưởng đến Facebook nói chung và các dịch vụ khác : Messenger, Instagram, WhatsApp, Mapillary, và Oculus…
Công việc bảo trì định kỳ đã xảy ra lỗi và cả máy chủ hệ thống và các tuyến BGP đều bị ảnh hưởng. Tệ hơn nữa, không chỉ các dịch vụ công khai của Facebook đi xuống mà còn cả các công cụ mà nhân viên Facebook để quản lý các dịch vụ đó. Do đó, các nhân viên phải vào trung tâm dữ liệu để khởi động lại hệ thống theo các thủ công.
Theo phó giám đốc cơ sở hạ tầng Santosh Janardhan của Facebook nói rằng : “ một lệnh đã vô tình kích hoạt kiến tất cả các mạng lưới Facebook bị ngắt kết nối dẫn đến tất cả các trung tâm dữ liệu của Facebook”
Janardhan đã nói trong cuộc họp báo sau đó vài ngày “ Hệ thống của chúng tôi được thiết kế để kiểm tra các lệnh như thế này, nhằm ngăn chặn những sai lầm như thế này, nhưng một lỗi trong công cụ kiểm tra đó đã ngăn chặn nó đừng lệnh đúng cách ”
Sai lầm đó đã ngăn chặn các hệ thống phản hồi các truy vấn của DNS. Vì các máy chủ DNS của Facebook không còn có thể kết nối với các trung tâm dữ liệu, chúng tự động vô hiệu hoá các BGP liên quan và do đó các máy chủ DNS không thể truy cập được mặc dù bản thân chúng đang hoạt động.
“ Tất cả những điều xảy ra này diễn ra rất nhanh. Và khi các kỹ sư của Facebook làm việc để tìm ra điều gì đang xảy ra, họ phải đối mặt với hai trở ngại lớn:
2. AWS: Ngày 7 tháng 12
AWS là một trong những dịch vụ đám mây được sử dụng rộng rãi nhất trên thế giới và một lượng đáng kể cơ sở hạ tầng phi tập trung sử dụng nó. AWS cung cấp máy chủ, lưu trữ, kết nối mạng, điện toán từ xa, electronic mail, phát triển di động và bảo mật cho các trang web.và khi các dịch vụ của nó bị gián đoạn thì hàng triệu doanh nghiệp có thể bị ảnh hưởng.
Vào ngày 7 tháng 12, sự cố ngừng hoạt động kéo dài hơn một giờ đã ảnh hưởng đến các dịch vụ của chính Amazon, cũng như các thiết bị tiêu dùng như Roomba và Ring và các dịch vụ phát trực tuyến như Disney + và Netflix, do sự cố với API AWS EC2 ở khu vực US-EAST-1.
Chris Villemezl là kỹ sư kỹ thuật cao cấp tại San Francisco, cho biết việc ngừng hoạt động cung cấp dịch ảnh hưởng đến các doanh nghiệp với mục đích theo dõi tình trạng hoạt động của tất cả các API nằm trong ứng dụng của họ và đóng góp vào việc cung cấp dịch vụ, trải nghiệm khách hàng cũng như khả năng xây dựng và triển khai của công ty dựa trên ThousandEyes.
3. Fastly: ngày 8 tháng 6
Fastly là một trong những mạng phân phối nội dung (CDN) được sử dụng phổ biến bởi nhiều website khác nhau.
Tuy nhiên, hơn 100.000 công ty sử dụng dịch vụ của Fastly, bao gồm cả Reddit và New York Times. Ngay cả Amazon và eBay cũng sử dụng một số dịch vụ của Fastly và bị ảnh hưởng bởi sự cố ngừng hoạt động vào tháng 6 của Fastly.
Những khách hàng đã có trải nghiệm không tốt về sự cố Fastly gây ra.
Ví dụ, Reddit đã bị sập hoàn toàn và không hoạt động trong toàn bộ thời gian ngừng hoạt động, kéo dài gần một giờ, theo một báo cáo của Thousand Eyes.
Nhưng New York Times đã có thể giảm thời gian ngừng hoạt động bằng cách đưa người dùng trực tiếp đến các máy chủ trang web của nó, được lưu trữ trong Google Cloud Platform. Vẫn cần thời gian để thực hiện bản sửa lỗi và thời gian để các bản ghi DNS cập nhật phổ biến.
Amazon sử dụng nhiều mạng phân phối nội dung, bao gồm cả Cloudfront CDN và Akamai của riêng mình. Khi Fastly ngừng hoạt động, nó có thể định tuyến lại các yêu cầu đến các CND khác, giảm đáng kể tác động của việc ngừng hoạt động.
Tương tự, eBay chỉ sử dụng Fastly cho một số nội dung, cụ thể là các đối tượng riêng lẻ trên các trang web. Công ty đã sử dụng Akamai để tự cung cấp các trang web. Trong quá trình ngừng hoạt động, eBay đã có thể chuyển hướng các yêu cầu khỏi Fastly và cuối cùng có thể giảm tác động của việc ngừng hoạt động hơn nữa.
4.Akamai Edge DNS: ngày 22 tháng 7
Akamai là Mạng phân phối nội dung toàn cầu, tương tự như Fastly về số lượng người dùng và thị phần. Và, cũng như sự cố ngừng hoạt động Fastly, các công ty sử dụng nhiều CDN ít bị ảnh hưởng hơn từ việc ngừng hoạt động.
Trong trường hợp ngừng hoạt động cụ thể này, dịch vụ Akamai DNS, dẫn người dùng đến mạng CDN của Akamai. Theo công ty, bản cập nhật cấu hình phần mềm đã gây ra lỗi trong Mạng phân phối nội dung Secure Edge của họ, ảnh hưởng đến hệ thống dịch vụ tên miền của mạng đó.
Nhiều trang web lớn đã bị ảnh hưởng, bao gồm Steam, American Airlines, Fox News và HSBC. Amazon, sử dụng nhiều CDN, đã có thể định tuyến lại lưu lượng truy cập và không để người dùng bị ảnh hưởng.
Tất cả sự cố mất điện chúng đều mang lại ảnh hưởng đến tất cả mọi người đặc biệt là các nhà cung cấp cơ sở hạ tầng và các doanh nghiệp trong lĩnh vực dịch vụ lớn.
Bài học được rút ra là ?
Các công ty tổ chức cần cẩn thận về việc đặt tất cả các cơ sở hạ tầng của họ vào một khu vực hay họ cần phải chuẩn bị tốt khâu xử lý sự cố mất điện nếu không muốn dịch vụ ngày càng đi xuống.
Angelique Medina là người đứng đầu bộ phận tiếp thị sản phẩm tại Thousand Eyes, đó là một công ty tình báo mạng thuộc sở hữu của Cisco chuyên theo dõi lưu lượng truy cập internet và đám mây, cho biết: “Cần phải lên một kế hoạch sẵn có. "Các tổ chức không cần phụ thuộc vào khả năng dự phòng của bất kỳ một dịch vụ nào hết."
Hai trong số những đợt ngừng hoạt động lớn nhất của năm 2021 bao gồm các nhà cung cấp dịch vụ đám mây như AWS và Azure. Hai nhà cung cấp dịch vụ Internet liên quan là Verizon và Azure. Bốn sự cố liên quan đến các nhà cung cấp CDN và DNS là Akamai, Cloudflare và Fastly. Và đó là những trường hợp ngừng hoạt động vì sự cố mất điện nghiêm trọng nhất trong năm 2021 do công ty Thousand Eyes tổng hợp được.
Sự cố ngừng hoạt động của Facebook không chỉ phá hủy mạng truyền thông xã hội và các dịch vụ khác của công ty như Instagram và WhatsApp. Nhiều doanh nghiệp sử dụng Facebook để xác thực người dùng. Khi dịch vụ đó ngừng hoạt động, người dùng không thể đăng nhập vào các trang web của doanh nghiệp đó nữa.
Vấn đề mạng xuất hiện trong các sự cố định tuyến BGP bị ngừng hoạt động đầu năm 2021. BGP - viết tắt của Border Gateway Protocol được sử dụng để trao đổi định tuyến cho internet và là giao thức được sử dụng giữa các ISP. Chức năng chính của BGP là trao đổi thông tin về khả năng tiếp cận mạng với các hệ thống BGP khác
“Các hacker BGP có thực sự đáng sợ. Nó có thể là một sự cố khó kiểm soát và các tác động nguy hiểm ảnh hưởng đến lưu lượng mà BGP đó kiểm soát “
Danh sách các sự cố mất điện hàng đầu:
1. Facebook: Ngày 4 tháng 10
Sự cố ngừng hoạt động lớn nhất năm 2021 là sự cố ngừng hoạt động của Facebook vào lúc 15:39 UTC ngày 4 tháng 10. Đó là một sự cố xảy ra hơn 7 giờ phạm vi ảnh hưởng đến toàn cầu. Việc ngừng hoạt động của Facebook nó ảnh hưởng đến Facebook nói chung và các dịch vụ khác : Messenger, Instagram, WhatsApp, Mapillary, và Oculus…
Công việc bảo trì định kỳ đã xảy ra lỗi và cả máy chủ hệ thống và các tuyến BGP đều bị ảnh hưởng. Tệ hơn nữa, không chỉ các dịch vụ công khai của Facebook đi xuống mà còn cả các công cụ mà nhân viên Facebook để quản lý các dịch vụ đó. Do đó, các nhân viên phải vào trung tâm dữ liệu để khởi động lại hệ thống theo các thủ công.
Theo phó giám đốc cơ sở hạ tầng Santosh Janardhan của Facebook nói rằng : “ một lệnh đã vô tình kích hoạt kiến tất cả các mạng lưới Facebook bị ngắt kết nối dẫn đến tất cả các trung tâm dữ liệu của Facebook”
Janardhan đã nói trong cuộc họp báo sau đó vài ngày “ Hệ thống của chúng tôi được thiết kế để kiểm tra các lệnh như thế này, nhằm ngăn chặn những sai lầm như thế này, nhưng một lỗi trong công cụ kiểm tra đó đã ngăn chặn nó đừng lệnh đúng cách ”
Sai lầm đó đã ngăn chặn các hệ thống phản hồi các truy vấn của DNS. Vì các máy chủ DNS của Facebook không còn có thể kết nối với các trung tâm dữ liệu, chúng tự động vô hiệu hoá các BGP liên quan và do đó các máy chủ DNS không thể truy cập được mặc dù bản thân chúng đang hoạt động.
“ Tất cả những điều xảy ra này diễn ra rất nhanh. Và khi các kỹ sư của Facebook làm việc để tìm ra điều gì đang xảy ra, họ phải đối mặt với hai trở ngại lớn:
- Thứ nhất, không thể truy cập các trung tâm dữ liệu của chung tôi thông qua các phương tiện thông thường vì mạng của họ bị gián đoạn
- Thứ hai, việc mất toàn bộ DNS đã phá vỡ nhiều công vụ nội bộ mà chúng tôi thường sử dụng để điều tra và giải quyết các sự cố như thế này” Janardhan đã viết.
2. AWS: Ngày 7 tháng 12
AWS là một trong những dịch vụ đám mây được sử dụng rộng rãi nhất trên thế giới và một lượng đáng kể cơ sở hạ tầng phi tập trung sử dụng nó. AWS cung cấp máy chủ, lưu trữ, kết nối mạng, điện toán từ xa, electronic mail, phát triển di động và bảo mật cho các trang web.và khi các dịch vụ của nó bị gián đoạn thì hàng triệu doanh nghiệp có thể bị ảnh hưởng.
Vào ngày 7 tháng 12, sự cố ngừng hoạt động kéo dài hơn một giờ đã ảnh hưởng đến các dịch vụ của chính Amazon, cũng như các thiết bị tiêu dùng như Roomba và Ring và các dịch vụ phát trực tuyến như Disney + và Netflix, do sự cố với API AWS EC2 ở khu vực US-EAST-1.
Chris Villemezl là kỹ sư kỹ thuật cao cấp tại San Francisco, cho biết việc ngừng hoạt động cung cấp dịch ảnh hưởng đến các doanh nghiệp với mục đích theo dõi tình trạng hoạt động của tất cả các API nằm trong ứng dụng của họ và đóng góp vào việc cung cấp dịch vụ, trải nghiệm khách hàng cũng như khả năng xây dựng và triển khai của công ty dựa trên ThousandEyes.
3. Fastly: ngày 8 tháng 6
Fastly là một trong những mạng phân phối nội dung (CDN) được sử dụng phổ biến bởi nhiều website khác nhau.
Tuy nhiên, hơn 100.000 công ty sử dụng dịch vụ của Fastly, bao gồm cả Reddit và New York Times. Ngay cả Amazon và eBay cũng sử dụng một số dịch vụ của Fastly và bị ảnh hưởng bởi sự cố ngừng hoạt động vào tháng 6 của Fastly.
Những khách hàng đã có trải nghiệm không tốt về sự cố Fastly gây ra.
Ví dụ, Reddit đã bị sập hoàn toàn và không hoạt động trong toàn bộ thời gian ngừng hoạt động, kéo dài gần một giờ, theo một báo cáo của Thousand Eyes.
Nhưng New York Times đã có thể giảm thời gian ngừng hoạt động bằng cách đưa người dùng trực tiếp đến các máy chủ trang web của nó, được lưu trữ trong Google Cloud Platform. Vẫn cần thời gian để thực hiện bản sửa lỗi và thời gian để các bản ghi DNS cập nhật phổ biến.
Amazon sử dụng nhiều mạng phân phối nội dung, bao gồm cả Cloudfront CDN và Akamai của riêng mình. Khi Fastly ngừng hoạt động, nó có thể định tuyến lại các yêu cầu đến các CND khác, giảm đáng kể tác động của việc ngừng hoạt động.
Tương tự, eBay chỉ sử dụng Fastly cho một số nội dung, cụ thể là các đối tượng riêng lẻ trên các trang web. Công ty đã sử dụng Akamai để tự cung cấp các trang web. Trong quá trình ngừng hoạt động, eBay đã có thể chuyển hướng các yêu cầu khỏi Fastly và cuối cùng có thể giảm tác động của việc ngừng hoạt động hơn nữa.
4.Akamai Edge DNS: ngày 22 tháng 7
Akamai là Mạng phân phối nội dung toàn cầu, tương tự như Fastly về số lượng người dùng và thị phần. Và, cũng như sự cố ngừng hoạt động Fastly, các công ty sử dụng nhiều CDN ít bị ảnh hưởng hơn từ việc ngừng hoạt động.
Trong trường hợp ngừng hoạt động cụ thể này, dịch vụ Akamai DNS, dẫn người dùng đến mạng CDN của Akamai. Theo công ty, bản cập nhật cấu hình phần mềm đã gây ra lỗi trong Mạng phân phối nội dung Secure Edge của họ, ảnh hưởng đến hệ thống dịch vụ tên miền của mạng đó.
Nhiều trang web lớn đã bị ảnh hưởng, bao gồm Steam, American Airlines, Fox News và HSBC. Amazon, sử dụng nhiều CDN, đã có thể định tuyến lại lưu lượng truy cập và không để người dùng bị ảnh hưởng.