Trong năm 2019 đã xảy ra một số lần gián đoạn mạng với quy mô toàn cầu, ảnh hưởng không nhỏ đến các doanh nghiệp và người tiêu dùng. Ta hãy cùng nhìn lại chúng và xem các bài học rút ra được.
Sự gián đoạn này thường đến từ các ông lớn cung cấp các dịch vụ trên internet cho toàn cầu. Khi chúng xảy ra, chúng gây nhiều thiệt hại cho nhiều doanh nghiệp trên khắp thế giới về doanh thu lẫn uy tín.
Mặc việc cung cấp dịch vụ và sự gián đoạn thường do các ISP, nhưng các doanh nghiệp ngày càng phụ thuộc vào một hệ sinh thái lớn hơn trên internet như CDN, DNS, DDoS mitigation và public cloud. Các dịch vụ này phối hợp với nhau để giúp cải thiện trải nghiệm của người dùng. Khi chúng gặp sự cố, một sự gián đoạn ngắn có thể gây ra tác động đáng kế.
Các doanh nghiệp ngày càng dựa vào internet để kết nối các trang web của họ và sử dụng các ứng dụng, dịch vụ quan trọng trong kinh doanh. Đã qua rồi những ngày phải sử dụng các ứng dụng, tài nguyên được lưu trữ trong các trung tâm dữ liệu private và tại các văn phòng, được kết nối chủ yếu bởi mạng MPLS. Internet đang thay thế hoặc cung cấp các dịch vụ tương tự như MPLS khi các doanh nghiệp nắm bắt được công nghệ SD-WAN. Kết quả là, internet bây giờ đóng vai trò quan trọng như là xương sống của các doanh nghiệp, như là một giải pháp tốt nhất. Tuy nhiên, nó vẫn tiềm ẩn những nguy cơ không thể lường trước được.
Trong năm 2019, một số lần gián đoạn quy mô lớn đã tạo ra các làn sóng trên internet toàn cầu, ảnh hưởng đến các doanh nghiệp và người tiêu dùng. Những sự cố ngày đánh gục ngay cả những ông lớn về công nghệ. Dưới đây là một số lần gián đoạn tiêu biểu trong năm, đều diễn ra trong mùa hè, theo thứ tự thời gian và những gì có thể học được từ chúng:
13/5/2019 – China Telecom bị ngưng hoạt động, bất ngờ trước phạm vi của nhà mạng này
Mặc dù không phải sự kiện gián đoạn tiêu biểu trong năm, nhưng sự cố ngừng hoạt động quy mô toàn cầu và khá lâu của China Telecom là một điềm báo về các sự cố sắp xảy ra, đồng thời cho ta biết về quy mô của nhà mạng này, vượt xa phạm vi lãnh thổ Trung Quốc.
Trong gần 5 tiếng đồng hồ, China Telecom gặp phải sự số “mất gói” đáng kể, chủ yếu ảnh hưởng đến cơ sở hạ tầng mạng ở Trung Quốc, nhưng cũng ảnh hướng đến mạng của China Telecom tại Singapore và nhiều điểm ở Mỹ, bao gồm cả Los Angeles. Hơn 100 dịch vụ bị gián đoạn trên toàn thế giới. Và mặc dù không ảnh hướng đến các trang web và dịch vụ của phương Tay, nhiều người dùng của các thương hiệu lớn của Mỹ như Apple, Amazon, Microsoft, Slack, Workday, SAP… đã bị mất kết nối trong lúc sự cố diễn ra.
Việc này đã giúp ta nhận ra sức mạnh của Trung Quốc và tác động của họ đến internet toàn cầu mà nhiều người không biết đến. Cụ thể, nó nhấn mạnh rằng nhiều chính sách kiểm duyệt áp dụng cho người dùng internet tại Trung Quốc thực sự có thể được áp dụng vượt xa biên giới Trung Quốc, ở các quốc gia khác.
2/6/2019 – "Mùa hè mất kết nối" bắt đầu, Google Cloud bị gián đoạn
Google Cloud Platform đã gặp sự cố đáng kể, ảnh hưởng đến các dịch vụ được lưu trữ ở các khu vực thuộc miền Tây, miền Đông và trung tâm nước Mỹ. Sự cố này đã ảnh hưởng đến các ứng dụng của Google, bao gồm cả Gsuite và Youtube. Việc gián đoạn kéo dài hơn 4 tiếng, gây ảnh hưởng nghiêm trong đối với các khách hàng là doanh nghiệp. Google đã đưa ra một báo cáo chính thức về vụ việc vài ngày sau đó.
Bắt đầu từ khoảng 9h sáng, sự cố “mất gói” diễn ra ở mức độ 100% từ các màn hình toàn cầu đang cố gắng kết nối với dịch vụ lưu trữ lại GCP us-west2-a. Những tín hiệu tương tự cũng được nhìn thẩy ở GCP US East.
Sự cố này hóa ra là do phần control plane điều khiển mạng của Google bị offline. Google sau đó đã tiết lộ rằng trong thời gian xảy ra sự cố, một tập hợp các policy tự động đã xác định các dịch vụ nào có thể hoặc không thể truy cập thông qua các phần không bị ảnh hưởng của mạng.
Một trong những vấn đề quan trọng nhất từ sự cố này là việc phải đảm bảo mọi kiến trúc đám mây đều phải có các biện pháp phục hồi, thậm chí trên môi trường multi-region hoặc multi-cloud, để phòng ngừa các sự cố tương tự trong tương lai.
6/6/2019 – Một loạt sai lầm đánh gục WhatsApp
Một lượng lớn người dùng trên toàn cầu bị sự cố kết nối. Sau khi phân tích kĩ càng hơn, nguyên nhân được xác định là do việc định tuyến đã đưa lưu lượng truy cập đến China Telecom – nhà mạng không chuyển tiếp bất kì lưu lượng truy cập nào liên quan đến Facebook.
Lý do nghe có vẻ hơi lằng nhằng, hãy tóm tắt lại.
Vụ việc bắt đầu khi một công ty của Thụy Sỹ có tên Safe Host thông báo rằng cách tốt nhất đề truy cập WhatsApp và hàng ngàng IP prefixes đã tham gia mạng của họ, AS 21217. Khi Safe Host “quảng bá” (advertised) các tuyến (routes) này, China Telecom nhận nó và lại chuyển đến các ISP khác như Cogent. Người dung có lưu lượng truy cập đến Cogent sẽ được chuyển đến cho China Telecom và hoàn toàn không thể truy cập dịch vụ.
Không rõ tại sao China Telecom lại nhận các tuyến đến dịch vụ mà họ không cho phép truy cập, nhưng rõ ràng ta đã có một bài học về sự cố này. Việc định tuyến BGP sai không phải là hiếm trên internet. Đối với bất kì ai dự vào internet, một hệ sinh thái có mối liên kết chặt chẽ và dễ bị tổn thương, họ phải hiểu cách hoạt động của nó và biết rằng một sai lầm từ nhà cung cấp dịch vụ có thể ảnh hưởng lan rộng ra. Thực tế là các vấn đề về định tuyến BGP và các lổ hổng trên internet sẽ ngày càng dễ mắc phải hơn trong bối cảnh cung cấp dịch vụ và doanh nghiệp hiện đại
24/6/2019 – Người dùng Cloudflare trở thành nạn nhân của việc định tuyến sai
Chỉ vài tuần sau sự cố của WhatsApp, internet đã trải qua một sự cố khác liên quan đến định tuyến, điều này còn tai hại hơn nhiều.
Vào ngày 24 tháng 6 năm 2019, trong gần hai tiếng, một lỗi định tuyến BGP đáng kể đã ảnh hưởng đến người dùng đang cố truy cập các dịch vụ do nhà cung cấp CDN Cloudflare sở hữu, bao gồm cả nền tảng chơi game Discord và Nintendo Life. Nguyên nhân bắt đầu từ DQE, mộ transit provider, là nguồn gốc của sự việc, sau đó nó được “quảng bá” qua Allegheny Technologies, một khách hàng của cả DQE và Verizon. Thật không may, Verizon tiếp tục “quảng bá” tiếp tuyến đường bị sai, phóng to tác động.
Các trang web được phục vụ thông qua CDN của CloudFlare đã bị ảnh hưởng trong gần hai tiếng. Sự gián đoạn lớn này đã ảnh hưởng đến khoảng 15% lưu lượng truy cập toàn cầu và các dịch vụ bị ảnh hưởng của Cloudflare như Discord, Facebook và Reddit. Việc rò rỉ tuyến đường cũng ảnh hưởng đến việc truy cập vào một số dịch vụ AWS.
Nguyên nhân cốt lõi của sự cố cuối cùng được bắt nguồn từ việc DQE sử dụng phần mềm tối ưu hóa BGP đã tạo ra các tuyến đến các dịch vụ Cloudflare chỉ được sử dụng trong mạng nội bộ của DQE. Khi những tuyến đường này vô tình bị rò rỉ cho một trong những khách hàng của mình, tình trạng lộn xộn xảy ra.
Sự cố này là một lời nhắc nhở khác về việc cực kỳ dễ dàng gây ra một sự cố lớn trên internet. Trong một thế giới tập trung vào đám mây, các doanh nghiệp phải có khả năng hiểu viết về internet nếu họ muốn thành công trong việc cung cấp dịch vụ cho người dùng của họ.
4/7/2019 – Dịch vụ của Apple bị ảnh hưởng
Vào ngày 4 tháng 7 năm 2019, người dùng kết nối với trang web của Apple và một số dịch vụ của hãng như Apple Pay, đã bắt đầu bị mất kết nối trong khoảng thời gian hơn 90 phút. Vấn đề này đã ngăn cản nhiều người dùng kết nối thành công với Apple. Nguyên nhân được xác định là do BGP route flap, nó xảy ra khi router lặp đi lặp lại việc cập nhật các tuyến.
Mặc dù các dịch vụ của Apple chắc chắn rất quan trọng đối với nhiều người dùng internet, nhưng thực tế là sự cố xảy ra sớm vào kỳ nghỉ dường như đã ngăn sự cố này gây ra nhiều hậu quả, kết quả là chỉ có một vài khiếu nại của người dùng. Bài học từ sự cố này là việc gián đoạn này đôi khi không được chú ý (hoặc gây ra sự phẫn nộ, chú ý cực nhiều) dựa vào thời gian và ngữ cảnh lúc xảy ra của nó.
6/9/2019 – "Cơ sở kiến thức lớn nhất trên internet" bị tấn công DDoS
Vào ngày 6 tháng 9 năm 2019, việc truy cập vào Wikipedia từ khắp nơi trên thế giới đã bị gián đoạn trong gần chín tiếng, nó là kết quả của một cuộc tấn công từ chối dịch vụ phân tán (DDoS) lớn và kéo dài. Các cuộc tấn công DDoS có thể áp đảo cơ sở hạ tầng của mục tiêu và cũng tạo ra tắc nghẽn trong các mạng của nhà cung cấp dịch vụ có thể dẫn đến mất gói.
DDoS là khó tránh khỏi khi vận hành trên internet, các tổ chức nên có tầm nhìn về phạm vi, tác động và hành vi của các sự kiện này và để có thể chuẩn bị các bước giảm thiểu DDoS một cách hiệu quả.
Theo cloudcomputing.com
Sự gián đoạn này thường đến từ các ông lớn cung cấp các dịch vụ trên internet cho toàn cầu. Khi chúng xảy ra, chúng gây nhiều thiệt hại cho nhiều doanh nghiệp trên khắp thế giới về doanh thu lẫn uy tín.
Mặc việc cung cấp dịch vụ và sự gián đoạn thường do các ISP, nhưng các doanh nghiệp ngày càng phụ thuộc vào một hệ sinh thái lớn hơn trên internet như CDN, DNS, DDoS mitigation và public cloud. Các dịch vụ này phối hợp với nhau để giúp cải thiện trải nghiệm của người dùng. Khi chúng gặp sự cố, một sự gián đoạn ngắn có thể gây ra tác động đáng kế.
Các doanh nghiệp ngày càng dựa vào internet để kết nối các trang web của họ và sử dụng các ứng dụng, dịch vụ quan trọng trong kinh doanh. Đã qua rồi những ngày phải sử dụng các ứng dụng, tài nguyên được lưu trữ trong các trung tâm dữ liệu private và tại các văn phòng, được kết nối chủ yếu bởi mạng MPLS. Internet đang thay thế hoặc cung cấp các dịch vụ tương tự như MPLS khi các doanh nghiệp nắm bắt được công nghệ SD-WAN. Kết quả là, internet bây giờ đóng vai trò quan trọng như là xương sống của các doanh nghiệp, như là một giải pháp tốt nhất. Tuy nhiên, nó vẫn tiềm ẩn những nguy cơ không thể lường trước được.
Trong năm 2019, một số lần gián đoạn quy mô lớn đã tạo ra các làn sóng trên internet toàn cầu, ảnh hưởng đến các doanh nghiệp và người tiêu dùng. Những sự cố ngày đánh gục ngay cả những ông lớn về công nghệ. Dưới đây là một số lần gián đoạn tiêu biểu trong năm, đều diễn ra trong mùa hè, theo thứ tự thời gian và những gì có thể học được từ chúng:
13/5/2019 – China Telecom bị ngưng hoạt động, bất ngờ trước phạm vi của nhà mạng này
Mặc dù không phải sự kiện gián đoạn tiêu biểu trong năm, nhưng sự cố ngừng hoạt động quy mô toàn cầu và khá lâu của China Telecom là một điềm báo về các sự cố sắp xảy ra, đồng thời cho ta biết về quy mô của nhà mạng này, vượt xa phạm vi lãnh thổ Trung Quốc.
Trong gần 5 tiếng đồng hồ, China Telecom gặp phải sự số “mất gói” đáng kể, chủ yếu ảnh hưởng đến cơ sở hạ tầng mạng ở Trung Quốc, nhưng cũng ảnh hướng đến mạng của China Telecom tại Singapore và nhiều điểm ở Mỹ, bao gồm cả Los Angeles. Hơn 100 dịch vụ bị gián đoạn trên toàn thế giới. Và mặc dù không ảnh hướng đến các trang web và dịch vụ của phương Tay, nhiều người dùng của các thương hiệu lớn của Mỹ như Apple, Amazon, Microsoft, Slack, Workday, SAP… đã bị mất kết nối trong lúc sự cố diễn ra.
Việc này đã giúp ta nhận ra sức mạnh của Trung Quốc và tác động của họ đến internet toàn cầu mà nhiều người không biết đến. Cụ thể, nó nhấn mạnh rằng nhiều chính sách kiểm duyệt áp dụng cho người dùng internet tại Trung Quốc thực sự có thể được áp dụng vượt xa biên giới Trung Quốc, ở các quốc gia khác.
2/6/2019 – "Mùa hè mất kết nối" bắt đầu, Google Cloud bị gián đoạn
Google Cloud Platform đã gặp sự cố đáng kể, ảnh hưởng đến các dịch vụ được lưu trữ ở các khu vực thuộc miền Tây, miền Đông và trung tâm nước Mỹ. Sự cố này đã ảnh hưởng đến các ứng dụng của Google, bao gồm cả Gsuite và Youtube. Việc gián đoạn kéo dài hơn 4 tiếng, gây ảnh hưởng nghiêm trong đối với các khách hàng là doanh nghiệp. Google đã đưa ra một báo cáo chính thức về vụ việc vài ngày sau đó.
Bắt đầu từ khoảng 9h sáng, sự cố “mất gói” diễn ra ở mức độ 100% từ các màn hình toàn cầu đang cố gắng kết nối với dịch vụ lưu trữ lại GCP us-west2-a. Những tín hiệu tương tự cũng được nhìn thẩy ở GCP US East.
Sự cố này hóa ra là do phần control plane điều khiển mạng của Google bị offline. Google sau đó đã tiết lộ rằng trong thời gian xảy ra sự cố, một tập hợp các policy tự động đã xác định các dịch vụ nào có thể hoặc không thể truy cập thông qua các phần không bị ảnh hưởng của mạng.
Một trong những vấn đề quan trọng nhất từ sự cố này là việc phải đảm bảo mọi kiến trúc đám mây đều phải có các biện pháp phục hồi, thậm chí trên môi trường multi-region hoặc multi-cloud, để phòng ngừa các sự cố tương tự trong tương lai.
6/6/2019 – Một loạt sai lầm đánh gục WhatsApp
Một lượng lớn người dùng trên toàn cầu bị sự cố kết nối. Sau khi phân tích kĩ càng hơn, nguyên nhân được xác định là do việc định tuyến đã đưa lưu lượng truy cập đến China Telecom – nhà mạng không chuyển tiếp bất kì lưu lượng truy cập nào liên quan đến Facebook.
Lý do nghe có vẻ hơi lằng nhằng, hãy tóm tắt lại.
Vụ việc bắt đầu khi một công ty của Thụy Sỹ có tên Safe Host thông báo rằng cách tốt nhất đề truy cập WhatsApp và hàng ngàng IP prefixes đã tham gia mạng của họ, AS 21217. Khi Safe Host “quảng bá” (advertised) các tuyến (routes) này, China Telecom nhận nó và lại chuyển đến các ISP khác như Cogent. Người dung có lưu lượng truy cập đến Cogent sẽ được chuyển đến cho China Telecom và hoàn toàn không thể truy cập dịch vụ.
Không rõ tại sao China Telecom lại nhận các tuyến đến dịch vụ mà họ không cho phép truy cập, nhưng rõ ràng ta đã có một bài học về sự cố này. Việc định tuyến BGP sai không phải là hiếm trên internet. Đối với bất kì ai dự vào internet, một hệ sinh thái có mối liên kết chặt chẽ và dễ bị tổn thương, họ phải hiểu cách hoạt động của nó và biết rằng một sai lầm từ nhà cung cấp dịch vụ có thể ảnh hưởng lan rộng ra. Thực tế là các vấn đề về định tuyến BGP và các lổ hổng trên internet sẽ ngày càng dễ mắc phải hơn trong bối cảnh cung cấp dịch vụ và doanh nghiệp hiện đại
24/6/2019 – Người dùng Cloudflare trở thành nạn nhân của việc định tuyến sai
Chỉ vài tuần sau sự cố của WhatsApp, internet đã trải qua một sự cố khác liên quan đến định tuyến, điều này còn tai hại hơn nhiều.
Vào ngày 24 tháng 6 năm 2019, trong gần hai tiếng, một lỗi định tuyến BGP đáng kể đã ảnh hưởng đến người dùng đang cố truy cập các dịch vụ do nhà cung cấp CDN Cloudflare sở hữu, bao gồm cả nền tảng chơi game Discord và Nintendo Life. Nguyên nhân bắt đầu từ DQE, mộ transit provider, là nguồn gốc của sự việc, sau đó nó được “quảng bá” qua Allegheny Technologies, một khách hàng của cả DQE và Verizon. Thật không may, Verizon tiếp tục “quảng bá” tiếp tuyến đường bị sai, phóng to tác động.
Các trang web được phục vụ thông qua CDN của CloudFlare đã bị ảnh hưởng trong gần hai tiếng. Sự gián đoạn lớn này đã ảnh hưởng đến khoảng 15% lưu lượng truy cập toàn cầu và các dịch vụ bị ảnh hưởng của Cloudflare như Discord, Facebook và Reddit. Việc rò rỉ tuyến đường cũng ảnh hưởng đến việc truy cập vào một số dịch vụ AWS.
Nguyên nhân cốt lõi của sự cố cuối cùng được bắt nguồn từ việc DQE sử dụng phần mềm tối ưu hóa BGP đã tạo ra các tuyến đến các dịch vụ Cloudflare chỉ được sử dụng trong mạng nội bộ của DQE. Khi những tuyến đường này vô tình bị rò rỉ cho một trong những khách hàng của mình, tình trạng lộn xộn xảy ra.
Sự cố này là một lời nhắc nhở khác về việc cực kỳ dễ dàng gây ra một sự cố lớn trên internet. Trong một thế giới tập trung vào đám mây, các doanh nghiệp phải có khả năng hiểu viết về internet nếu họ muốn thành công trong việc cung cấp dịch vụ cho người dùng của họ.
4/7/2019 – Dịch vụ của Apple bị ảnh hưởng
Vào ngày 4 tháng 7 năm 2019, người dùng kết nối với trang web của Apple và một số dịch vụ của hãng như Apple Pay, đã bắt đầu bị mất kết nối trong khoảng thời gian hơn 90 phút. Vấn đề này đã ngăn cản nhiều người dùng kết nối thành công với Apple. Nguyên nhân được xác định là do BGP route flap, nó xảy ra khi router lặp đi lặp lại việc cập nhật các tuyến.
Mặc dù các dịch vụ của Apple chắc chắn rất quan trọng đối với nhiều người dùng internet, nhưng thực tế là sự cố xảy ra sớm vào kỳ nghỉ dường như đã ngăn sự cố này gây ra nhiều hậu quả, kết quả là chỉ có một vài khiếu nại của người dùng. Bài học từ sự cố này là việc gián đoạn này đôi khi không được chú ý (hoặc gây ra sự phẫn nộ, chú ý cực nhiều) dựa vào thời gian và ngữ cảnh lúc xảy ra của nó.
6/9/2019 – "Cơ sở kiến thức lớn nhất trên internet" bị tấn công DDoS
Vào ngày 6 tháng 9 năm 2019, việc truy cập vào Wikipedia từ khắp nơi trên thế giới đã bị gián đoạn trong gần chín tiếng, nó là kết quả của một cuộc tấn công từ chối dịch vụ phân tán (DDoS) lớn và kéo dài. Các cuộc tấn công DDoS có thể áp đảo cơ sở hạ tầng của mục tiêu và cũng tạo ra tắc nghẽn trong các mạng của nhà cung cấp dịch vụ có thể dẫn đến mất gói.
DDoS là khó tránh khỏi khi vận hành trên internet, các tổ chức nên có tầm nhìn về phạm vi, tác động và hành vi của các sự kiện này và để có thể chuẩn bị các bước giảm thiểu DDoS một cách hiệu quả.
Theo cloudcomputing.com