بررسی دسترسی‌پذیری بالا و Disaster Recovery در طراحی SCOM

در طراحی SCOM یا System Center Operation Manager باید خرابی احتمالی ویژگی‌ها و سرورها را مد نظر قرار داد و برای این زمان‌ها راه‌حلی اندیشید. میزان از دست رفتن اطلاعات و قابلیت‌ها، براثر خرابی در سناریوهای خرابی مختلف با هم متفاوت است و بستگی به ویژگی‌ دچار خرابی و طول مدت زمان بازیابی آن دارد.

بررسی دسترسی‌پذیری بالا یا HA در طراحی SCOM

با ایجاد افزونگی در Management Group، دیتابیس‌های عملیاتی و پایگاه‏داده‌ی Operation Manager، Management Servers و Gateway و بارهای کاری مشخص، پاسخ به نیاز‌های مربوط به دسترسی‌پذیری بالا امکانپذیر است. این بارهای کاری شامل مانیتورینگ دستگاه شبکه، مانیتورینگ در بین پلتفرم‌ها (Cross-Platform) و بارهای کاری مختص به Management Group به‌خصوصی که قبلا توسط Root Manager Server مدیریت می‌شدند، می‌باشد.

پیکربندی Management Group با چندین سرور می‌تواند برای ارائه دسترسی‌پذیری بالا و تداوم خدمات برای دیتابیس‌های Operation Manager از SQL Server Always On استفاده کند. با داشتن حداقل دو Management Server و استفاده از Poolهای منابع برای مانیتورینگ سرورهای UNIX و Linux و دستگاه‌های شبکه، قابلیت Fault-Tolerance (تحمل خطا) Management Server فراهم می‌گردد. سرورهای ویندوز مبتنی بر Agent را می‌توان با یک Management Server اولیه و ثانویه پیکربندی کرد تا در صورت از کار افتادن Management Server، ارتباطات Agent تغییر مسیر پیدا کند.

ویدیوی آشنایی با System Center 2016
مشاهده ویدیوهای بیشتر

در صورتی که Management Server میزبان RMS Emulator غیر قابل دسترسی شود، می‌توان RMS Emulator را به سرورهای مدیریتی دیگر منتقل نمود. می‌توان با پیکربندی دسترس‌پذیری بالا برای Data Access Services، اتصالات کنسول عملیات را بسیار دسترسی‌پذیر نمود. این کار با نصب Microsoft Network Load Balancing یا به اختصار NLB، یا با استفاده از تعدیل کننده‌های بار مبتنی بر سخت‌افزار یا DNS امکان‌پذیر است. یک یا چند Management Server به‌عنوان اعضای Pool NLB اضافه می‌شوند و هنگام بازکردن کنسول، کاربر به نام مجازی ثبت شده‌ی خود در DNS از سرورهای مدیریتی تعدیل‌بار شده، ارجاع می‌دهد. قابل توجه است که تعدیل‌کننده‌ی بار برای کنسول وب Operation Manager پشتیبانی نمی‌شود.

می‌توان چندین سرور Gateway را در محدوده‌ی اعتماد قرار داد تا مسیرهایی اضافی را برای Agentهایی که در آن محدوده‌ی اعتماد قرار دارند، ارائه دهند. همانطور که Agentها می‌توانند بین Management Server اولیه و یک یا چند سرور مدیریتی ثانویه Failoverکنند، می‌توانند دربین سرورهای Gateway نیز Failover نمایند. علاوه‌براین می‌توان از چندین سرور Gateway برای تقسیم بارکاری مدیریت کامپیوترهای مدیریت شده بدون (Agent (Agentless-Managed و دستگاه‌های شبکه‌ای مدیریت شده، استفاده کرد. اگر سرورهای مدیریتی چندتایی در دسترس باشند، علاوه بر ارائه افزونگی از طریق Agent- Gateway Failover، سرورهای Gateway را می‌توان برای Failover بین سرورهای مدیریتی در Management Group پیکربندی کرد.

با وجوداینکه SQL Server Reporting Services از یک مدل نصبScale-Out پشتیبانی می‌کند که به کاربر اجازه می‌دهد تا چندین Instance سرور گزارش را راه‌اندازی کند که تنها در یک دیتابیس سرور گزارش مشترک هستند، ولی همراه باOperation Manager پشتیبانی نمی‌شود. Operation Manager Reporting یک افزونه امنیتی سفارشی را به عنوان بخشی از راه اندازی اجزای Front-end نصب می‌کند که در سراسر Web Farm قابل همسان‌سازی نیست.

شرکت APK نخستین شرکت دانش محور در اجرای پروژه های انفورماتیکی کشور تماس با کارشناسان 021-88539044-5

بررسی Disaster Recovery در طراحی SCOM

Disaster Recovery به مجموعه اقدامات انجام‌شده جهت اطمینان از انجام مجدد عملیات، در صورت وقوع یک خرابی فاجعه‌بار، مربوط می‌شود. مثلا از دست رفتن کل دیتاسنتر که میزبانِ زیرساخت‌ اولیه می‌باشد. این امر، عنصری مهم محسوب میگردد که باید در هر پیاده‌سازی در نظر گرفته شود و تصمیماتی که در برنامه‌ریزی برای Disaster Recovery گرفته می‌شود روی چگونگی قابلیت Operation Manager در پشتیبانی از مانیتورینگ فعال و آینده‌نگرانه، گزارش عملکرد و دسترس‌پذیری خدمات IT حیاتی کاربر تاثیر خواهد داشت. این بخش بر روی این موضوع تمرکز خواهد کرد که راه‌کارهای پیشنهادی Disaster Recovery و قابلیت خود ترمیمی چیست و اینکه برای اطمینان از بازیابی بدون نقص چه اقداماتی لازم است.

اگرچه راهکارهای HA و DR از خرابی یا ازدست‌رفتن سیستم محافظت می‌کنند ولی نمی‌توان برای ارائه‌ی محافظت در مقابل خرابی و از دست‌دادن تصادفی یا ناخواسته داده‌ها روی آن‌ها حساب کرد. در این موارد ممکن است نسخه‌ی Backup یا نسخه‌ی Lagged Replication برای عملیات بازیابی بهتر باشند. در خیلی از موارد، عملیات بازیابی (Restore) مناسب‌ترین شکل DR است؛ مثال این موضوع می‌تواند دیتابیس گزارش‌‌گیری دارای اولویت پایین‌تر یا داده‌های تجزیه‌وتحلیلی باشد. در بسیاری از موارد هزینه فعال‌سازی Multisite DR در سطح سیستم یا در برنامه کاربردی به مراتب بیشتر از ارزش داده‌ها است. در مواردی که ارزش کوتاه مدت داده‌ها کم است و نیاز به دسترسی به داده‌ها می‌تواند بدون تاثیر شدید برکسب‌و‌کار به تاخیر بیفتد، اگر خرابی یا DR سایت بیش‌ازحد‌‌ باشد و صرفه‌جویی در هزینه‌ها این موضوع را توجیه ‌کند استفاده از فرایند ساده‌ی Backup و بازیابی باید مد نظر قرار گیرد.

مطلب مرتبط: ویژگی های جدید SCOM 2019

آگاهی از میزان تاثیر Downtime و قابلیت تحمل آن به کاربر کمک خواهد کرد تصمیماتی بگیرد که به منظور طراحی مناسب معماری برای Operation Manager و همچنین تعیین سطح پیچیدگی و هزینه‌های مورد‌ نیاز برای‌پشتیبانی از Disaster Recovery لازم هستند. علاوه بر این، باید میزان از دست‌دادن داده‌ها را که بدون ایجاد عواقب در کسب‌و‌کار برای سازمان IT قابل‌تحمل است مد نظر قرار داده شود. این امر به بهترین شکل، از طریق دو مفهومِ زمان بازیابی (RTO) و نقطه بازیابی (RPO) به بهترین شکل توصیف شده‌است.

دو‌ مورد از رایج‌ترین پیکربندی‌های طراحی Disaster Recovery برای Operations Manager عبارتند از:

ایجاد یک Management Group تکراری که در دیتاسنتر ثانویه‌ی کاربر نصب شده و در مقیاس و پیکربندی گروه مدیریت اولیه را تکرار می‌کند.
پیاده‌سازی سرور‌های اضافی در دیتاسنترهای ثانویه برای پشتیبانی از دیتابیس‌های Data Warehouse و Operational، با پیاده‌سازی Management Server در پیکربندی Cold Standby، بدون شرکت در Management Group تا زمانیکه نیاز به انجام عملیات بازیابی باشد.

وقتی که تحمل برای خرابی وجود نداشته باشد، نصب Management Group تکراری گزینه مناسبی است، هر چند که پیچیده‌ترین گزینه می‌باشد. پیکربندی این دو باید آن‌قدر با ثبات انجام شود که وقتی دسترسی کاربر قطع می‌شود دیگر تفاوتی در چیزی که مانیتور می‌شود، در موردش هشدار یا گزارش داده می‌شود، ارائه می‌گردد و درنهایت تشدید می‌شود وجود نداشته باشد. ادغام با سایر پلتفرم‌های مانیتورینگ یا پلتفرم‌های ITSM مانند System Center، Service Manager، Remedy یا Service Now نیز باید وجود داشته باشد و باید در حالت Active/Passive پیکربندی شود تا از تکرار حوادث، آیتم‌های پیکربندی و غیره اجتناب گردد. Agentها بین هر دو گروه مدیریتی Multihomed خواهد شد، پس نسخه‌ی دیگری از داده‌ها وجود خواهد داشت.

بررسی دسترسی‌پذیری بالا و Disaster Recovery در طراحی SCOM

بررسی دسترسی‌پذیری بالا یا HA در طراحی SCOM

بررسی Disaster Recovery در طراحی SCOM

بیشتر بخوانید

درباره ما

تماس با ما

تازه ترین مقالات

عمومی

سازمانی

پکیج رایگان آشنایی با مسیر مهاجرت به

کوبرنتیز و داکر