در این مقاله بررسی میکنیم که فرآیند پیادهسازی Spark همراه با IBM Spectrum Conductor تسهیل میگردد و علاوه بر صرف زمانی کوتاهتر برای دستیابی به نتیجه، میزان استفاده از منابع نیز به حداکثر میرسد.
Apache Spark به ارائه مزایای عملکردی مطلوب به عنوان یک چارچوب آنالیز متن باز برای Big Data میپردازد. با این وجود، اجرای Spark با چالشهای مهمی همراه است که از آن جمله میتوان از سرمایهگذاری در تخصصهای جدید، ابزار و جریانهای کاری و همچنین ادغام آن با سایر چارچوبها نام برد. ایجاد کلاسترهای هدفمند برای Spark ممکن است به کاربرد ناکارآمد منابع و در کنار آن چالشهای مدیریتی و امنیتی منجر شود.
IBM Spectrum Conductor همراه با Spark برای مقابله با این مشکلات طراحی شده و کاربران را در مواجهه با چالشهای مربوط به پیادهسازی و مدیریت Spark یاری مینماید. برخلاف گزینههای رقابتی متن باز ارائه شده که مستلزم مونتاژ تکه تکهی اجزا میباشند، IBM Spectrum Conductor همراه با Spark به عنوان یک راهکار یکپارچه میباشد که از سوی سرویسها و بخش پشتیبانی IBM حمایت میگردد. این راهکار، توزیع Spark را یکپارچه نموده و از وضعیت Multi-Tenancy برای Spark و سایر چارچوبها پشتیبانی میکند که با تکنولوژیهایی برای تخصیص منابع به صورت Dynamic و Granular، تکمیل میگردد. این تکنولوژیها به طورگسترده در بسیاری از محیطها با موفقیت اجرا شده و عملکرد و کارایی را بهبود میبخشند.
با استفاده از این راهکار سازمانها میتوانند برنامههای کاربردی Spark را به نحوی کارآمد و موثر پیادهسازی کنند. این راهکار مدیریتی در سطح سازمانی و به صورت Multitenant بوده و میتواند چندین Instance مختص به Spark را مورد پشتیبانی قرار دهد؛ ضمن اینکه میزان استفاده از منابع را به حداکثر رسانده و علاوه بر ارتقای عملکرد و مقیاس به حذفSilo ها از منابع میپردازد که در غیر اینصورت با فرآیند پیادهسازی مجزای Spark مرتبط خواهد بود. IBM Spectrum Conductor همراه با Spark از ادغام Spark با چارچوبهای دیگر برنامههای کاربردی مانند Hadoop، Cassandra و MongoDB پشتیبانی مینماید.
تسریع زمان دستیابی به نتیجه
IBM Spectrum Conductor با پشتیبانی از اجرای همزمان چندین Instance از Spark و چارچوبهای دیگر بر روی یک زیرساخت واحد و مشترک میتواند این امکان را فراهم نماید تا برنامههای کاربردی از مزایای منابع موجود کاملا بهرهمند گردند. یکی از عوامل موثر و مورد تایید زمانبندیِ منابع به ارائه یک روند تخصیص منابع بسیار دقیق میپردازد که به ارائه عملکرد بسیار مطلوب برنامهها، بهبود روند استفاده از منابع و پاسخگویی سریع به نیازهای مهم کسبوکار کمک مینماید. در محیطهایی که بارکاری مربوط به چندین برنامه اجرا میشود، منابع با این راهکار تخصیص مییابد؛ بنابراین سطوح سرویسدهی فراهم گردیده و در عین حال تفکیک امنیتی بین Instanceهای برنامه حفظ میگردد.
IBM Spectrum Conductor همراه با Spark، تا 58 درصد توان عملیاتی بیشتری را برای Spark در برابر مدیران منابع Open-Source رقابتی فراهم مینماید. همچنین یک واحد پردازش گرافیکی (GPU) را ارائه میکند که از مزیت تمامی قدرت پردازش Vector برای امور متمرکز بر محاسبات، پشتیبانی مینماید. به علاوه، مجموعه موقتی یا دائمیِ دادههای منابع تعریفشده یا (Resource Definition Data Set (RDD را میتوان در میان تمامی کاربران به اشتراک گذاشت تا از بارگذاری یا محاسبات مجددِ نتایج قبلی خودداری شود. تمام این عوامل با یکدیگر ترکیب میشوند تا سریعترین زمان برای دستیابی به نتیجه را ارائه نمایند، در حالی که هزینههای مربوط به زیرساختهای محاسباتی را نیز به حداقل میرسانند.
افزایش کاربرد منابع
IBM Spectrum Conductor همراه با Spark به سازمانها کمک مینماید تا از پراکندگی کلاسترها و کاربرد نادرست منابع جلوگیری نمایند. این راهکار با اجرای workloadها بر روی یک پلتفرم واحد و مشترک میتواند برنامههای کاربردی مجزا را قادر به استفاده از منابعی کند که به طور معمول، به سایر موارد از برنامههای کاربردی اختصاص داده شده و در غیر اینصورت ممکن است بدون استفاده باقی بمانند. همچنین این راهکار از وضعیت Multi-Tenancy پشتیبانی مینماید که به کاربر امکان میدهد چندین Instance و چندین نسخه مختلف از Spark را به طور همزمان در یک فضای مشترک اجرا نماید. این قابلیت به سازمانها کمک میکند تا چرخههای عمر Spark با حرکت سریع را مدیریت نموده و به گروههای مختلفی اجازه اجرای نسخههای مختلفی از Spark را بدهند بدون آنکه نیازی به بروزرسانی آنها در Lockstep باشد.
کاهش هزینههای اجرایی
این راهکار با ارائه تنظیمات پیشرفته سرویسها و مدیریتِ بارکاری میتواند هزینههای مدیریتی و زیرساخت را کنترل نماید. یک برنامه مدیریت منابع با محوریت Policyهای پیچیده به تخصیص پویای برنامههای کاربردی پرداخته و به سازمانها کمک میکند تا استفاده از سختافزارهای موجود را بهینهسازی نموده و نیاز به سرمایهگذاری بیشتر را به تعویق بیاندازد. یک واسط کاربری یکپارچه به مدیران امکان میدهد تا چندین چارچوب Spark را مدیریت نموده و نیاز به جمعآوری شاخص از هر یک از چارچوبها را به صورت جداگانه برطرف نماید.
سهولت در اجرای یک راهکار جامع و کامل
امروزه سازمانها به راهکارهایی تمایل دارند که ذخیرهسازی، تحلیل و محافظت از داراییهای اطلاعاتی آنها را بهینه سازد. IBM Spectrum Conductor با Spark به عنوان یکی از راهکارهای یکپارچه مطرح میگردد که توزیع Spark برای آنالیز دادهها، مدیریت بارکاری، مانیتورینگ، گزارشگیری و امنیت در سطح سازمان را در برمیگیرد. برای مدیریت Storage، میتوان این راهکار را با IBM Spectrum Scale ترکیب نمود که در مقایسه با (Hadoop Distributed File System (HDFS، کاراییهای قابل توجهی را برای Storage ارائه مینماید. همچنین IBM Spectrum Conductor همراه با Spark از HDFS برای کاربرانی که این گزینه برای آنها ارجحیت دارد، پشتیبانی مینماید. توزیع Spark موجب ساده شدن چارچوب پیادهسازی برای پروژههای اکتشافی و محیطهای عملیاتی میگردد.
پیادهسازی Spark به صورت ایمن
IBM Spectrum Conductor همراه با Spark به ارائه یک راهکار کارآمد و کاملا موثر برای سازمانهایی با نیازهای زیر میپردازد:
- استفاده از روش اشتراکگذاری منابع در میان Instanceهای Spark جهت کاهش زمان دستیابی به نتیجه و بهبود روند بهکارگیری منابع
- مدیریت چرخههای عمر سریع Spark
- ارائه کنترل دقیق بر تخصیص منابع برای Instanceهای متعددی از Spark
- مدیریت منطقی در محیط Spark و ادغام آن با سایر چارچوبها
- بهرهمندی از مزیت GPU Floating و قدرت پردازش Vector برای امور متمرکز بر محاسبات
- اشتراکگذاری RDDهای موقت یا دائم برای تمامی کاربران به منظور پرهیز از بارگذاری مجدد یا محاسبه مجددِ نتایج قبلی
نکات کلیدی در زمینه IBM Spectrum Conductor همراه با Spark
- سادهسازی روند مدیریت برنامه کاربردی Apache Spark با یک چارچوب یکپارچه
- بهبود زمان دستیابی به نتایج از طریق زمانبندی کارآمد منابع و زیرساختهای مشترک
- کاهش هزینهها و افزایش به کارگیری منابع از طریق تخصیص پویا و Granular
- ادغام Spark با چارچوبهای دیگر برنامههای کاربردی مانند Hadoop، Cassandra و MongoDB
- حذف Siloهای منابع مرتبط با چندین Instance و نسخه مختلف Spark و برنامههای دیگر
- ارتقای امنیت با کنترل دسترسی مبتنی بر نقش (Role)