در ویندوز سرور ۲۰۱۶، Resiliency یا خودترمیمی محاسباتی ماشینهای مجازی افزایش یافت، تا از روشهای زیر به رفع مشکلات ارتباط درونکلاستری، در کلاستر محاسباتی کمک نماید:
- گزینههای موجودResiliency برای ماشینهای مجازی: گزینههایی برای Resiliency ماشین مجازی در نظر گرفته شد، تا با تنظیم آنها بتوان رفتار ماشینهای مجازی حین خرابیهای زودگذر یا به عبارتی Transient Faulire را مشخص نمود. این گزینهها عبارتند از:
- Resiliency Level: به شما کمک میکند شیوهی حل خرابیهای زودگذر را تعیین کنید.
- Resiliency Period: به شما کمک میکند مشخص نمایید، ماشینهای مجازی تا چه مدتی اجازه دارند بهصورت ایزوله فعالیت کنند.
- قرنطینهی Nodeهای ناسالم: Nodeهای ناسالم قرنطینه میشوند و دیگر اجازهی پیوستن به کلاستر را ندارند. این امر از تاثیر منفی Nodeهای دچار مشکل بر سایر Nodeها و کل کلاستر جلوگیری میکند.
Storage Resiliency یا خودترمیمی ذخیرهسازی در ویندوز سرور ۲۰۱۶
ماشینهای مجازی در برابر خرابیهای زودگذر در ذخیرهسازها نیز ترمیمپذیرتر هستند. بهبود Resiliency ماشین مجازی، به حفظ حالت Session ماشین مجازی Tenant، در صورت اختلال در ذخیرهسازی کمک مینماید. این امر حاصل پاسخ سریع و هوشمندانهی ماشین مجازی به مسائل زیرساختی ذخیرهسازی است.
هنگامی که ارتباط ماشین مجازی با ذخیرهساز (Storage) اصلی خود قطع میشود، متوقف شده و منتظر میماند تا Storage بازیابی شود. حین توقف، ماشین مجازی برنامههایی که در آن اجرا میشوند را حفظ مینماید. وقتی ارتباط ماشین مجازی با ذخیرهسازی آن مجدداً برقرار گشت، ماشین مجازی به حالت اجرای خود برمیگردد. در نتیجه، حالت Session ماشین Tenant در بازیابی (Recovery) حفظ میشود.
در ویندوز سرور ۲۰۱۶، Resiliency ذخیرهساز ماشین مجازی برای Clusterهای مهمان هم فعال و بهینهسازی شده است.
بررسی Transient Failureیا خرابی زودگذر
در زیر به بررسی چند سناریو پرداختهایم، که میتواند در خودترمیمی بیشتر VMها نسبت به خرابیهای ارتباط درونکلاستری مفید باشد:
- قطع ارتباط Node: وقتی سرویس کلاستر تلاش میکند به همهی Nodeهای فعال وصل گردد، Node قطعشده (ایزوله) نمیتواند با هیچ یک از Nodeهای عضو کلاستر فعال مکالمه کند.
- قطع سرویس کلاستر: هنگامی که Cluster Service در یک Node دچار مشکل باشد، Node با هیچ Node دیگری ارتباط ندارد.
- قطعی نامتقارن (Asymmetric Disconnect): هنگامی که Cluster Service سعی میکند به تمام Nodeهای فعال وصل شود، Node ایزوله میتواند با حداقل یک Node عضو کلاستر فعال در ارتباط باشد.
حالتهای جدید Failover Clustering
در ویندوز سرور ۲۰۱۶ سه حالت جدید معرفی شدهاند تا جریان کاری Failover Cluster را هنگام وقوع خرابی زودگذرنشان دهد:
- یک حالت جدید در ماشین مجازی، Unmonitored میباشد که در Failover Cluster Manager معرفی شده تا نشان دهد ماشین مجازی دیگر تحت مانیتورینگ سرویس کلاستر نمیباشد.
- دو حالت جدید بنامهای Isolated و Quarantine در Node کلاستر معرفی شده است تا Nodeهایی را نشان دهد که عضو فعال نیستند اما قبل از خروج از عضویت فعال، میزبان Roleهای ماشین مجازی بودهاند. در زیر به معرفی این دو حالت و جزئیات آنها می پردازیم:
۱- Isolated:
- Node مربوطه، دیگر عضو فعال نیست.
- Node همچنان میزبان Role ماشین مجازی است.
2- Quarantine:
- در حالت Quarantine یا قرنطینه Node مربوطه در یک مدت زمان ثابت (پیشفرض: ۲ ساعت) اجازهی پیوستن به Cluster را ندارد.
- این فرآیند، از تاثیر منفی Nodeهای آسیب دیده به سایر Nodeها و سلامت کلی کلاستر جلوگیری میکند.
- بهصورت پیشفرض، اگر یک Node، سه بار ظرف یک ساعت از Cluster خارج گردد، قرنطینه خواهد شد.
- ماشینهای مجازی که Node میزبان آنهاست هنگام قرنطینه بدون نیاز به قطعی تخلیه میگردند.
- در هر بازهی زمانی، حداکثر ۲۵ درصد Nodeها را میتوان قرنطینه نمود.
Node را میتوان با اجرای دستور Start-ClusterNode در Failover Clustering PowerShell© با استفاده از flagهای –CQ یا ClearQuarantine از قرنطینه خارج کرد.
محاسبات ماشین مجازی برای جریان کاریResiliency در ویندوز سرور ۲۰۱۶
نحوهی کارResiliency ماشین مجازی در یک Cluster محاسباتی بهصورت زیر میباشد:
- هنگامی که روی Nodeی که میزبان ماشینهای مجازی میباشد، ارتباط درون کلاستری دچار مشکل ناپایداری گردد؛ Node در حالت Isolated قرار گرفته و از عضویت Cluster فعال خارج میگردد. در این حالت سرویس کلاستر، ماشین مجازی روی Node را Unmonitored در نظر میگیرد.
- (File Storage Backed (SMB: اجرای ماشین مجازی در حالت Online ادامه مییابد.
- (Block Storage Backed (FC/FCoE/iSCSI/SAS: ماشین مجازی در حالت “Paused Critical” قرار میگیرد. این امر به دلیل آنست که Node ایزوله شده، هیچ دسترسی به Cluster Shared Volumes در کلاستر ندارد.
- حالت واقعی ماشین مجازی را میتوان با استفاده از ابزارهای مورد استفاده برای ماشین مجازی Stand-Alone (مانند Hyper-V Manager) مانیتور نمود.
- اگر Node ایزوله شده، همچنان دچار خرابیهای ارتباط درونکلاستری باشد، بعد از مدت زمان مشخصی (پیشفرض ۴ دقیقه)، ماشین مجازی به یک Node مناسب در کلاستر محول میگردد و Node به حالت Down منتقل میشود.
- اگر Node به تعداد دفعات مشخصی (پیشفرض سه بار) در یک ساعت ایزوله گردد، برای مدتی مشخص (پیشفرض ۲ ساعت) وارد حالت Quarantine یا قرنطینه میشود و تمام ماشینهای مجازی آن Node به یک Node مناسب در Cluster انتقال داده میشوند.
همانطور که ملاحظه نمودید امکانات و حالات جدیدی در ویندوز سرور ۲۰۱۶ تعبیه گشته است که هر کدام در موارد خاصی مورد استفاده قرار خواهند گرفت.