به تازگی نسخهی بهروزرسانیشدهای از Splunk Machine Learning Toolkit یا به اختصار Splunk MLTK نسخهی 3.4 منتشر شده است که شامل بروزرسانیهایی به Libraryهای اصلی یادگیری ماشینی، عملکردهای تازه در Experiment Management Framework، مصورسازی (Visualization) و برای نخستین بار، معرفی یک الگوریتم Neural Network میباشد. ویژگیهای یاد شده همگی بر پایهی قابلیتهای پیشین MLTK نسخه 3.3 که در اوایل سال 2018 منتشر شده بود، ساخته شدهاند.
موارد ذیل ویژگیهای کلیدی MLTK 3.4 میباشند که در ادامه مورد بررسی قرار میگیرند:
- (Python for Scientific Computing (PSC نسخه 3
- (Experiment Management Framework (EMF: انتشار
- گزینهی جدید تصویرسازی : Box Plot
- الگوریتم Neural Network: MLP Classifier
با بهروزرسانی Python for Scientific Computing یا PSC نسخه 1.3، Libraryهای مختلفی همچون Numpy، Pandas، Scikit-Learn، Statsmodels، Scipy و غیره بروزرسانی شدهاند.
شرح پشتیبانیهای PSC نسخه 1.3 در MLTK 3.4+
این بروزرسانیهای Library، تواناییهای موجود MLTK را همچون Multi-Layer Perceptron Classifier با پشتیبانی از محتوای بروزرسانی بیشتر از طریق ML-SPL API، بهبود میبخشد. عملکردهای تازهای در نتیجهی این بروزرسانیها در نسخههای آیندهی MLTK در Conf18، نهمین کنفرانس کاربری سالانه کمپانی Splunk و رویدادهای بعدی، رونمایی خواهند شد. نکته مهم آن است که برای MLTK 3.4+ باید دارای PSC 1.3 باشید.
بررسی ارتقای Experiment Management Framework Continues در Splunk MLTK
با بهرهمندی از این قابلیت تازهی انتشار، کاربران قادر خواهند بود مدلهای یادگیری ماشینی خود را از Experiment Management Framework یا به اختصار EMF در App Context راهکارهای Splunk IT Service Intelligence، Splunk Essentials یا هر راهکار مبتنی بر SPL دیگری که بر روی Splunk Enterprise موجود باشد، منتشر نمایند.
امروزه یک سازندهی مدل یادگیری ماشینی قادر است یک گردش کار EMF در MLTK ایجاد نماید تا به راحتی و بهصورت خودکار Lifecycleهای مدل خود را مانیتور نماید. این قابلیت انتشار به صاحب مدل توانایی تازهای برای Ship نمودن آن مدلها به فضای کار کاربر Splunk دیگری میبخشد تا کاربر بتواند بهسرعت از گردش کار معمول خود (برای مثال Custom Alertهای ML-Powered در هر فضای کار مبتنی بر SPL در Splunk) دادهها دریافت کند.
گزینهی Visualization تازهای با نام Box Plot اضافه گردیده است.
Box Plot یک تصویرسازی (Visualization) کلاسیک برای بررسی و اندازهگیری سریع عملکردهای Probability Density در جهت دستیابی به درک درستی از Static Profile یک گروه از دادهها میباشد. هر زمان که کاربر از تجزیه و تحلیل آمار در Splunk استفاده نماید، میتواند از Box Plot جهت مصورسازی پراکندگیهای متفاوت بهره ببرد. در مثال ذیل ما در حال بررسی تراکم تماسها در ساعت و طی هر روز هفته در یک دورهی پنج هفتهای هستیم. قابل مشاهده است که تعداد تماسها در هر روز هفته پراکندگی متفاوتی دارد، ولی برخی از روزها مانند سهشنبه، چهارشنبه، جمعه و شنبه پراکندگی مشابهی دارند و روز پنجشنبه نیز مشابه است ولی اندکی تفاوت دارد. دوشنبه و یکشنبه علاوه بر اینکه با یکدیگر متفاوت هستند با دیگر روزهای هفته نیز تفاوت قابل توجهی دارند!
الگوریتم Neural Network
Multi-Layer Perceptron Classifier یک الگوریتم یادگیری بازبینیشده مبتنی بر یک Forward Feed Neural Network میباشد.
حل کردن مشکلات طبقهبندی سخت است و MLP Classifier با توانایی خود در تمایز روابط غیرخطی در دادهها، به کاربر در این امر یاری میرساند. مقادیر زیادی از پارامترهای قدرتمند برای تنظیم و شخصیسازی فرآیند یادگیری وجود دارد.
نکته مهم اینکه MLP Classifier به Feature Scaling حساس میباشد و پیش از شروع به استفاده برای آموزش مدل، باید دادهها استانداردسازی شوند.
تصویر زیر ماتریس درهمریختگی است که که نتایج LogisticRegression و الگوریتمهای MLP Classifier را نشان می دهد و مثالی از پیشبینی خرابی هارد درایو است.
MLP Classifier قادر بود که روابط غیرخطی موجود در ویژگیهایی که بروز خرابی در هارد درایو را پیشبینی میکردند شناسایی کرده و مدل دقیقتری بسازد.