مقدمه

مهمترین نکته ای که باید در طراحی SCOM یا Systen Center Operation Manager (سیستم مرکز مدیریت عملیات) به آن توجه کنید، خرابی احتمالی سرورها و ویژگی های موجود در آن ها است. بنابراین، باید راه حل مناسبی برای مقابله با مشکلات احتمالی در نظر گرفته شود. میزان اطلاعاتی که در اثر بروز هر یک از این مشکلات در سناریوهای مختلف به‌ وجود می آید، متفاوت است. این مورد، رابطه مستقیمی با نوع ویژگی ها و سرورهایی دارد که در اثر هر حمله تخریب می شوند. بنابراین سعی کرده ایم در این مقاله به بررسی قابلیت دسترسی پذیری بالا و نحوه پیاده سازی آن بپردازیم.

طراحی سیستم مرکز مدیریت عملیات

امکان پاسخ به نیازهای وابسته به دسترس پذیری بالا با ایجاد بخش هایی مانند گروه مدیریت (MG)، دیتابیس عملیاتی و دیتابیس سرورهای مدیریت عملیات و تعیین بار کاری مشخص، فراهم می شود. اگر بخواهیم تعریف ساده ای از بار کاری ارائه دهیم، باید بگوییم که بررسی و مانیتورینگ شبکه، مانیتورینگ بین پلتفرمی و مانیتورینگ بارهای کاری مربوط به گروه مدیریت (Manageme Group) در دسته بارهای کاری قرار می گیرند.
برای اعمال دسترس پذیری بالا و همچنین تداوم و استمرار خدمات در دیتابیس های مدیریت عملیات در SQL Server، نوع پیکربندی گروه مدیریت اهمیت ویژه ای دارد. استفاده از حداقل دو سرور مدیریتی و بکارگیری مخازن یا پولینگ های منابع برای مانیتورینگ سرورها و دستگاه های موجود در شبکه سبب ایجاد قابلیت تحمل خطا در هر سرور مدیریت می شود.
اغلب سرورهای مبتنی بر عامل (Agent) موجود در ویندوز را می توان با استفاده از یک سرور اولیه و ثانویه مدیریت، پیکربندی نمود. این امر یکی از راه حل های SCOM برای مقابله با وقوع مشکلات و خرابی ها است؛ زیرا با اجرای این روش حتی در صورت خرابی و از کار افتادن سرور مدیریت، از طریق تغییر مسیر ارتباطات عامل (Agent) سرورهای ویندوز می‌ توانند به فعالیت خود ادامه دهند.
حال تصور کنید که سرور مدیریت میزبان شبیه ساز RMS باشد. اما امکان دسترسی به سرور مدیریت ممکن نباشد، چه مشکلاتی پیش خواهد آمد؟ دسترس پذیری بالا این امکان را برای شما فراهم می کند که بتوانید RMS را به سرور دیگر منتقل کنید. در نتیجه می توانید دسترسی اتصالات موجود در دیتابیس عملیاتی را ارتقا دهید. برای این کار باید NLB را بر روی سیستم خود نصب کنید. البته برای ارتقای دسترس پذیری می‌ توانید از تعدیل کننده های بار بر سخت افزار یا DNS نیز استفاده کنید.

با استفاده از NLB، یک یا چند سرور مدیریتی به عنوان اعضای مخزن منابع در نظر گرفته می شوند. در نتیجه، زمانی که کنسول باز شود، کاربر به صورت اتوماتیک به بخشی که به صورت مجازی در DNS ثبت شده منتقل می شود. باید به این نکته اشاره کنیم که قابلیت پشتبانی تعدیل کننده ‌های سخت افزاری یا DNS برای دیتابیس مدیرت عملیات وجود ندارد.
برای افزایش دسترس پذیری می‌توان چند سرور مختلف را در محدوده اعتبار قرار داد. با این روش، مسیرهای اضافی برای عامل هایی که در این محدوده قرار دارند، ایجاد می شود. حتما اطلاع دارید که عامل ها می توانند موجب Failover در سرور مدریت اولیه یا چندین سرور مدیریت ثانویه شوند. علاوه بر این می توان از چندین سرور Gateway برای مدیریت تقسیم بارکاری در کامپیوتر بدون استفاده از عامل های مختلف و دستگاه های شبکه ای، استفاده نمود.
در ادامه بررسی افزایش دسترس پذیری در SCOM باید به این نکته اشاره کنیم که سرور خدمات SQL از یک مدل فاقد مقیاس استفاده می کند. این امر، برای کاربران امکان ایجاد چندین سرور گزارش دهی را فراهم می کند. البته این سرورها دارای دیتابیس مشترک هستند. ولی برای پشتیبانی آنها از یک دیتابیس مدیریت عملیاتی مشترک استفاده نمی شود.

راهنماها و قوانین دسترس پذیری در طراحی SCOM

برای ارزیابی دسترس پذیری، مجموعه مختلفی از قوانین و راهنماها وجود دارد. با یک نگاه مختصر ممکن است ارزیابی دسترس پذیری کمی پیچیده به نظر برسد. به همین دلیل ما پیشنهاد می کنیم که بررسی موارد مقدماتی را حتما رعایت کنید و به درکی سطح بالا از ساختارها دست پیدا کنید. معیارهای لازم برای بررسی دسترس پذیری به چهار دسته مختلف تقسیم می شود که توسط W3B توصیه شده اند. با استفاده از چنین معیارهایی می توانید به این توانایی دست پیدا کنید که چگونه می توان پیاده سازی را به صورت قابل درک، پایدار و عملیاتی اجرا کرد.

بررسی سناریوی Disaster Recovery در SCOM

اگر بخواهیم تعریف بسیار ساده ای از Disaster Recovery بیان کنیم، چنین می گوییم: مجموعه اقداماتی که برای اطمینان از فعالیت مجدد سیستم در صورت بروز هر نوع مشکل یا خرابی انجام می شود را بازیابی پس از نقص یا Disaster Recovery می نامند. همانطور که می دانید دیتاسنتر میزبان زیرساخت های اولیه یک سیستم است. بنابراین از بین رفتن آن یک اتفاق منحصر به فرد است. به همین دلیل باید در حین پیاده سازی سیستم اقدامات لازم برای بازیابی دیتاسنتر درنظر گرفته شود.
تمرکز اصلی در این مرحله بر روی ارتقای قابلیت مدیریت دیتابیس در پشتیبانی مانیتورینگ، افزایش دسترس پذیری و ارائه گزارش عملکرد است. به علاوه، در این مرحله راه کارهای موجود برای بازایابی سیستم پس از وقوع هر نقص بررسی شده و اقدامات لازم برای مقابله با آنها انجام می شود.

بررسی کاربرد دسترس پذیری بالا (HA) و بازیابی نقایص (DR)

همانطور که اشاره کردیم توجه به دسترس پذیری بالا و بازیابی هر نقص در حین طراحی SCOM می تواند موجب حفاظت سیستم در برابر خرابی ها، مشکلات و از دست رفتن اطلاعات شود اما نمی توان برای مقابله یا حفاظت سیستم در برابر حوادث و خرابی های پیش بینی نشده به این دو سناریو متکی بود. برای همین توصیه می کنیم که به منظور مقابله با مشکلاتی که غیرقابل پیش بینی هستند، تنها بر استفاده از نسخه پشتیبان، یا بکاپ گیری متمرکز شوید.
زیرا در بسیاری از موارد، بازیابی با استفاده از نسخه پشتیبان بهترین حالت در DR است. زیرا بازیابی نقایص ایجاد شده در سیستم دارای هزینه ای بالاتر از بازابی داده ها است. به همین دلیل، در مواردی که ارزش کوتاه مدت داده ها زیاد نیست، و دسترسی به آنها تاثیری بر سایر فرایندها و فعالیت ها ندارد، برای صرفه جویی در هزینه ها به جای استفاده از DR به سراغ استفاده از نسخه پشتیبان یا بکاپ گیری می رویم.

آگاهی از میزان تاثیر این دو سناریو و همچنین آشنایی با قدرت تحمل سرور به کاربران کمک می کند تصمیماتی عاقلانه در مورد شیوه مناسب طراحی برای مدیریت عملیات و همچنین تعیین دقیق میزان هزینه ناشی از بازیابی خرابی ها یا DR اتخاذ کند. به علاوه، در حین طراحی کاربر باید به نکته دیگری نیز توجه داشته باشد؛ آن هم قدرت تحمل سیستم های IT است. یعنی باید برآورد کند که سیستم، قدرت مقاومت در برابر حذف یا از دست رفتن چه میزان دارده را دارد. به علاوه باید از تاثیر هر یک از نقاص و خرابی های ایجاد شده در کسب و کارخود نیز مطلع باشید.

دو نمونه از طراحی های موجود در طراحی Disaster Recovery

برای اینکه بتوانید با استفاده از DR مرحله پیکربندی مدیریت عملیات را در SCOM انجام دهید، دو روش بسیار رایج وجود دارد که ما در ادامه به صورت مختصر این دو روش را بیان می کنیم.

  •  در روش اول باید یک گروه مدیریت یا MG تکراری که در دیتاسنتر ثانویه کاربر وجود دارد را در پیکربندی گروه مدیریت تکرار کنید.
  •  در روش دوم می توانید مرحله پیاده سازی سرورهای اضافی در مرکز داده را با استفاده از دیتابیس های عملیاتی و Warehouse انجام دهید. به علاوه می توانید از سرور مدیریت در پیکربندی استفاده کنید. با این روش تا زمانی که نیاز به بازیابی نقایص و خرابی های سیستم وجود نباشد، نیازی به استفاده از گروه مدیریت وجود ندارد.

مهمترین نکته ای که در این قسمت باید اشاره کنیم این است که در مواردی ممکن است به دلایل مختلف سیستم قدرت تحمل خرابی و نقص را نداشته باشد، در این مواقع استفاده از گروه مدیریت یا MG تنها راه نجات است. ممکن است بگویید این روش بسیار پیچیده و سخت است. اما برای افزایش قدرت سیستم در برابر خرابی ها، استفاده از این گزینه ضروری است. سعی کنید اجرای روش های بالا را با قدرت انجام دهید. تا در صورت بروز هر نوع مشکل برای مانیتورینگ هیچ تفاوتی بین بخش های مختلف وجود نداشته باشد.

سخن پایانی

همانطور که درقسمت های قبل اشاره کردم SCOM به معنی سیستم مرکز مدیریت عملیات است. مهمترین کاربرد این سیستم، پیش بینی خطاها و خرابی های احتمالی و ارائه راهکار مناسب برای مقابله با آنها است. در این سیستم از دیتابیس های مدیریتی، عملیاتی، گروه مدیریت، سرور مدیریت و بسیاری از موارد دیگر استفاده می شود. طراحی این سیستم به گونه ای است که اگر در اثر وقوع خرابی ها، دسترسی کاربر به سیستم با مشکل مواجه شد، کاربر بتواند از روش های مختلف دسترسی مجدد را ایجاد کرده و بتواند سیستم را مجددا راه اندازی کند و مدیریت داده را انجام دهد.
دسترس پذیری بالا یا High Availability و بازیابی سیستم پس از وقوع خرابی های پیش بینی شده یا Disaster Recovery مهمترین مواردی هستند که در طراحی سیستم مرکز مدیریت عملیات مورد توجه قرار می گیرند. با توجه به اینکه، اجرای سناریوهای مختلف در این سیستم با هزینه همراه است، در مواردی که داده ها اهمیت بالایی در مباحث تجاری و حرفه ای ندارند برای بازیابی آنها به جای ساتفاده از HA و DR از نسخه پشتیبان یا بکاپ استفاده می شود.