SQL Server Big Data Clusters یا به اختصار BDC قابلیت جدیدی است که به عنوان بخشی از نسخهی SQL Server 2019 به بازار عرضه شدهاست. BDC با یکیکردن Engine SQL با Apache Spark و Apache Hadoop برای ایجاد یک پلتفرم دادهی واحد، امن و یکپارچه، قابلیتهای تحلیلی SQL Server را فراتر از پردازش In-Database بارهای کاری معاملاتی و تحلیلی گسترش دادهاست. BDC منحصرا برای اجرا در Containerهای Linux در دسترس است که توسط Kubernetes تنظیم شدهاست و میتواند در شرکتهای Multiple- Cloud یا On-Premises نصب گردد.
آخرین Cumulative Update یا به عبارتی CU5 برای SQL Server 2019 است که شامل قابلیتهای مهمی برای SQL Server و BDC میباشد، از جمله:
- پشتیبانی برای نصب BDC روی پلتفرم Red Hat OpenShift Kubernetes
- فعالسازی برنامههای در حال اجرا در BDC به عنوان کاربرهای Non-Root
- پشتیبانی برای نصب BDCهای چندتایی در دامنهی Active Directory یکسان
- تجربهی مجازیسازی دادههای غنی شده
- اتصالدهندهی Open Sourced Spark SQL و Enhanced
- پیشرفتهای گوناگون و رفع اشکالات
نصب Big Data Clusters در پلتفرم Red Hat OpenShift Kubernetes
Red Hat OpenShift مانند تشکیل پلتفرم کانتینر در سراسر محیطهای Hybrid و Multi-Cloud خود، Kuberneteهایی ارائه میدهد که Enterprise-Grade هستند و از نظر اقتصادی پشتیبانی میشوند و به دلیل همکاری نزدیک با تیم Red Hat، از نصب SQL Server BDC در OpenShift، برای نسخهی 4.3 به بالا، در محیطهای Om-Premises یا در محیطهای Public Cloud با ARO پشتیبانی میکند. اکنون کاربرها میتوانند از یک پشته کاملا پشتیبانی شده بهره ببرند تا با استفاه از BDC، پلتفرم تجزیه و تحلیل یکپارچهی خود را راه بیاندازد و از بهترین روشهای طراحی و توسعه و دستورالعملهای امنیتی Enterprise-Grade که هستهی OpenShitt هستند، اطمینان حاصل کنند.
طراحی امنیتی برای استفادهی بهتر از OpenShift Cntainer Platform، افزایش پیدا کردهاست. علاوه بر این، برای سطح دسترسی، دیگر نیازی به کانتینرها نیست. کانتینرها به صورت پیشفرض به عنوان کاربر Non-Root نیز اجرا میشوند. این امر شامل امکان پردازش پیشرفتهی تفکیک شده درون یک کانتینر است. white paper، مقالهای که با همکاری تیمهای امنیتی SQL Server و Red Hat تهیه شدهاست، جزئیات طراحی را توصیف میکند و نشان میدهد که هنگام نصب BDC در OpenShift، به چه دلیل به سیاستهای امنیتی خاصی نیاز است.
مدل و کیفیت پیادهسازی BDC بهبود یافتهاست، بنابراین، کاربر میتواند راهنماییهای تجویز شده را به صورت هماهنگ، با پروفایلهای Built-In تعبیهشده برای هدف قرار دادن محیطهای OpenShift یا پیشرفتهای UX در Azure Data Studio دنبال کند که شامل OpenShift به عنوان پلتفرم هدف است. با استفاده از کانتینرها و Red Hat OpenShift مجهز به Kubernetes ، سازمانها میتوانند به چابکی، مقیاسپذیری، انعطافپذیری ، امنیت و قابلیت حمل مطلوب برای Big Data Clusters دست یابند.
آوردن SQL Server و Big Data Clusters به OpenShift Container Platform یک کار تیمی واقعی بوده است. Red Hat با ارائهی کمکهای ارزشمند، در هنگام اجرا بهترین راهنماییها را فراهم میکند.
کانتینرهای پیش فرض امن، در نقش کاربرهای Non-Root
به عنوان یک پلتفرم دادهی جدید، Big Data Clusters با فعال کردن احراز هویت Active Directory، با وجود پیادهسازیهای مبتکرانه برای برنامههایی که در کانتینرها اجرا می شوند، از دسترسی امن به دادهها در سطح شرکت، اطمینان حاصل میکند. علاوه بر این، در حال حاضر با اطمینان از اینکه همه برنامههای کانتینر در حال اجرا در داخل BDC به صورت پیشفرض و در همهی سیستم عاملهای پشتیبانی شده، به عنوان کاربر Non-Root اجرا میشوند، ایمنسازی سیستم عامل بیشتر شدهاست. این قابلیتها برای همه پیادهسازیهای جدید با استفاده از Image Tagمربوط به SQL Server 2019 CU5 در دسترس است. پیادهسازیهای موجود قبل از CU5 BDC تحت تاثیر قرار نخواهندگرفت و برنامههای موجود در این کلاسترها به عنوان کاربر Root ادامه خواهند یافت. پشتیبانی از انتقال این کلاسترها به پیکربندی نوع Non-Root در به روزرسانی Cumulative در آینده اضافه خواهدشد.
نصب BDCهای چندتایی درهمان دامنهی Active Directory
برای تکمیل پیشرفتهای پلتفرم فوق در مورد کلاستر Big Data امن، پشتیبانی برای نصب چندین BDC در یک دامنه Active Directory اضافه شدهاست. اکنون کاربران میتوانند از نصب BDC چندتایی در محیط سازمانی امن خود استفاده کنند تا موارد استفاده چندگانه مانند توسعه، آزمایش، پیش تولید یا تولید، خطوط لولهی CI،CD یا HADR را با هم داشتهباشند.
پیشرفتهای جدید مجازیسازی داده
علاوه بر پیشرفتهای فوق، قابلیتهای مجازیسازی دادهها نیز بهبود یافتهاند. یعنی، دو روش ذخیره شدهی جدید، sp_data_source_objects و sp_data_source_table_columns برای پشتیبانی از External Data Sources خاص وجود دارد. که میتوانند توسط مشتریان مستقیما از طریق T-SQL برای شناسایی طرح و دیدن جداول موجود برای مجازیسازی استفاده شوند. این امر به کاربر این امکان را میدهد تا جداول خارجی را از SQL Server، Oracle، MongoDB و Teradata ایجاد کند.
SQL Server و Azure SQL Connector برای Apache Spark Open Sourcing
BDC شامل SQL Server و Azure SQL Connector برای Apache Spark Open Sourcing است. بر اساس APIهای Apache Spark DataSource V1 و SQL Server Bulk API، این اتصال کاربر را قادر می سازد با استفاده از Apache Spark از هر SQL Server بخواند یا کپی کند.