در قسمت اول از مقاله ی IBM DataWorks به بررسی مفهوم این تکنولوژی و دلایل استفاده از آن پرداخته شد و در این مقاله که قسمت دوم از این دسته مقاله ها می باشد به بررسی معماری داده ها و دسترسی آن از دیدگاه IBM و همچنین امنیت بالای استفاده از این تکنولوژی می پردازیم.
دسترسی آسان به دادهها در دنیای پیچیده Hybrid Cloud
چالش پیش روی شرکتهای امروزی، برای دسترسی به دادهها و انتقال آنها، به دلیل ماهیت بیش از پیش پیچیدهی Hybrid در محیطهای IT، شکل میگیرد. Hybrid دارای تعاریف متعددی است: در برخی موارد به همزمانسازی کامل و بدون محدودیت بین زیرساختهای On-Premise و سرویسهای Cloud برمیگردد و در سایر موارد به معنای ارائه پشتیبانی برای دسترسی به دادهها صرفنظر از مکان استقرار آنها میباشد. علیرغم وجود تعاریف متعدد در مورد Hybrid Cloud، چالشهای شغلی واضح و متمایزی وجود دارد که در انواع مختلف پیادهسازی Hybrid از جمله دسترسی و انتقال سریع و ایمن دادهها بروز مییابد.
IBM DataWorks ، ابزاری برای مدیریت روند دسترسی و انتقال سریع و ایمن دادهها در یک ساختار Hybrid ارائه مینماید. این تکنولوژی دارای دو ویژگی مهم در توانمندسازی Hybrid Cloud میباشد:
1-یک دروازه یا Gateway ایمن، که راهکاری ساده را به منظور دسترسی به دادههای شرکت در Cloud برای مشتریان ارائه مینماید. این امر از طریق یک SSL tunnel با ویژگی نصب آسان محقق شده و این امکان را برای کاربران فراهم میکند تا به دادههای پشت فایروال دسترسی یابند. Secure Gateway یا SG بسیار سادهتر از دسترسی کلی VPN میباشد و باز کردن یک پورت خروجی و نصب یک Agent به صورت On-Premise، تنها شرایط لازم برای عملکرد است.
2- با استفاده از این تکنولوژی، حد بهینهسازی کاهش پیدا کرده و در نتیجه، میزان دادههای مورد نظر برای انتقال را از طریق تجزیه و تحلیل مسیرهای آمادهسازی داده کاهش میدهد و هر تعداد عملیات را که بتواند به پایگاهدادهی منبع میفرستد. در این صورت تضمین میشود که تنها دادههای هدف انتقال مییابند، بنابراین از قدرت محاسبات منبع داده برای توزیع بارکاری بهره برده و مجموعه دادههای کوچکتر را به Cloud انتقال میدهد.
DataWorks در تمام مدت انجام این فرآیند در محیط Hybrid، سطح بالایی از امنیت را با ایجاد نقاط یکپارچهسازی ایمن در On-Premise و Cloud، ارائه مینماید.
معمای کیفیت دادهها: شکلگیری دادهها
امروزه بسیاری از پروژههای تجزیه و تحلیل داده به دلیل مشکلات مربوط به کیفیت داده نظیر دادههای ناقص، غیردقیق و نامرتبط، متوقف یا با تاخیر مواجه شده و ناتمام باقی میمانند. در واقع، 42 درصد از کارشناسان تجاری قبل از اقدام به تجزیه و تحلیل دادهها، بیش از 40 درصد از زمان خود را برای اصلاح و اعتبار بخشیدن به دادهها صرف مینماید. مشکل اصلی ناشی از کیفیت دادهها میباشد؛ چالشی که با رویکردهای جدید برای آمادهسازی دادهها توجیه میگردد.
آمادهسازی دادهها، به دسترسی ایمن و Self-Service به دادهها در هر جایی همراه با اتصال فراگیر، اطلاق میشود. این فرآیند با تکیه بر مفهوم سنتی (ETL (Exact, Transform, Load و از طریق بهینهسازی کیفیت و تمامیت دادهها، پیش از تجزیه و تحلیل آنها جهت کسب اطلاعات تجاری ایجاد میشود. رشتهها و اعداد صحیح (String and Integer)، قلمرو کاربران فنی را تشکیل میدهند اما کاربران تجاری فقط میخواهند مفاهیم دادههای ارائه شده را به سادهترین شکل ممکن، درک نمایند. در حالی که فرآیندهای سنتی، این کاربران را مجاب میکند تا برای غربالگری مجموعه دادهها در انتظار کمک کارشناسان IT باشند، اما امروزه تقاضای دادههای جدید، مستلزم موانع کمتری برای ورود به فرآیند آمادهسازی دادهها میباشد، البته همچنان کاربران تجاری باید برای انجام فرآیند آمادهسازی دادهها به نوبه خود توانمند گردند.
DataWorks با ارائه سرویسهای آمادهسازی و انتقال دادهها با کاربری ساده در Cloud به رفع این چالش میپردازد و برای کاربران فنی و غیرفنی نیز قابل دسترسی میباشد. تکنولوژی آمادهسازی دادهها، یک مقوله بسیار پیچیده میباشد و در صورتی که به کاربران تجاری اجازه دهد نقش کارشناسان داده را ایفا کنند، صرفا عملکرد نهایی خود را بدون نیاز به تخصص دقیق و زیاد در این زمینه ارائه میدهد. این ایده به عنوان نیرو محرکه در روند توسعه DataWorks قرار دارد که برای بهرهگیری از این تکنولوژی برای موارد پیشرفته نیازی نیست که یک کارشناس داده رسمی و مورد تایید باشید؛ حتی کاربران اکسل میتوانند به این مجموعه دست یابند و بدون نیاز به دانش وسیع در مورد پایگاههای داده و ساختارهای داده میتوانند گزارشهای بهتری را در بازه زمانی کوتاهتر ارائه نمایند.
DataWokrs، برای تحلیلگران تجاری و کاربران اکسل، یک واسط کاربری با سبک صفحه گستردهی (Spreadsheet) قابل دسترسی را ارائه مینماید که در آن اصلاح و شکلگیری دادهها صورت گرفته و سپس برای مجازیسازی به شیوهای ساده تغییر مییابد. کاربران میتوانند با دنبال کردن یک دستورالعمل تعاملی به سرعت فعالیتی را شکل داده و عملکردی را برای مجموعه دادهها در تمامی اندازهها از پایگاههای داده کوچک تا مقیاس چندین ترابایت اجرا نمایند. توانایی ایجاد، انتقال و ارسال دادهها به صورت On-Demand در یک حالت دستهای (Batch Mode) بدین معناست که کاربران تجاری با دانش فنی کمتر میتوانند روی پروژههای تجزیه و تحلیل پیشرفته کار کنند بدون اینکه در انتظار مدیران IT یا مدیران پایگاه داده بمانند. پس از آنکه مدیران، Policyهایی را ارائه نموده و ارتباطاتی را ایجاد میکنند، هر یک از کاربران تجاری میتوانند از مزایای آمادهسازی دادهها به صورت Self-Service و همچنین ابزارهای شکلدهی بهره گیرند و دادهها را از قالب راکد و اصلاح نشده خارج نمایند.
در قسمت بعدی که قسمت سوم (پایانی) از این سری مقالات می باشد به استفاده از این تکنولوژی در Apache Spark و IBM Watson خواهیم پرداخت.
ــــــــــــــــــــــــــــــــــــــــــــــ
مفهوم IBM DataWorks و کاربردهای آن – قسمت اول