با اینکه مدل دادهکاوی با به کارگیری یک الگوریتم بر روی دادهها ایجاد میشود، اما این فرآیند بیش از یک الگوریتم یا Metadata Container میباشد. هدف دادهکاوی در مدلهای دادهکاوی شامل مجموعهای از دادهها، اطلاعات آماری و الگوهایی است که جهت پیشبینی و ارائه استنتاجهای مختلف در مورد روابطِ دادههای جدید به کار میروند.
در این مقاله به موضوعاتی از جمله مفهوم مدل دادهکاوی یا Data Mining و کاربرد آن در معماریِ پایهی مدلها و ساختارها، ویژگیهای مدل دادهکاوی و روشهای ایجاد و استفاده از این مدلها پرداخته میشود.
معماری مدلهای دادهکاوی
هدف دادهکاوی چیست؟ داده کاوی در ابتدا به جمعآوری دادهها از ساختار دادهکاوی پرداخته و سپس آن را با استفاده از یک الگوریتم دادهکاوی آنالیز میکند. نکته مهم در این مورد آن است که ساختار دادهکاوی و مدل دادهکاوی دو مقوله مجزا میباشند؛ در واقع اطلاعات تعریف شده توسط منبع داده در ساختار دادهکاوی ذخیره میشوند، اما مدل دادهکاوی به ذخیره اطلاعاتی میپردازد که در نتیجه پردازش آماری دادهها ایجاد میشوند و به عنوان نمونه میتوان از الگوهای ایجاد شده در نتیجه آنالیز اشاره نمود.
لازم به ذکر است تا زمانی که پردازش و آنالیز دادههای ارائهشده توسط ساختار دادهکاوی انجام نشود، مدل دادهکاوی فاقد اطلاعات خواهد بود. مدل دادهکاوی پس از پردازش شامل مواردی همچون Metadata، نتایج و پیوندهایی در ارتباط با ساختار دادهکاوی میشود.
هدف دادهکاوی از تعریف مدل چیست
Metadata به تعریف مدل و تعیین نام مدل و سروری میپردازد که در آن ذخیره شده است. تعریف مدل شامل ستونهای به کار رفته از ساختار دادهکاوی برای ارائه مدل، تعاریف هر یک از فیلترهای مورد استفاده در زمان پردازش مدل و الگوریتمِ به کاررفته برای آنالیز دادهها میباشد. تمامی این گزینهها که شامل ستونهای داده، انواع دادههای آن، فیلترها و الگوریتم میباشند، تاثیر زیادی بر نتایج آنالیز دارند.
بیشتر بخوانید: بررسی مراحل تست و اعتبارسنجی در دادهکاوی (Data Mining)
برای مثال میتوان مدلهای متعددی را با استفاده از الگوریتم Clustering، الگوریتم درخت تصمیمگیری و الگوریتم Naïve Bayes ایجاد نمود. هر یک از این مدلها به ارائه مجموعههای مختلفی از الگوها، آیتمها، قواعد و فرمولها میپردازد که در مراحل بعدی میتوان از آنها برای انجام پیشبینیها استفاده نمود. به طور کلی هر الگوریتم میتواند دادهها را به نحوی متفاوت آنالیز نماید و در نتیجه آن، محتوای مدل حاصل از آنالیز در ساختارهای متفاوتی سازماندهی شود. در یکی از مدلها ممکن است دادهها و الگوها در قالب کلاسترها گروهبندی شوند و در نوع دیگری از مدلها نیز دادهها برای تقسیمبندی و تعریف در قالب درختها، شاخهها و قواعد سازماندهی شوند.
این مدل تحتتاثیر دادههای مورد استفاده میباشد؛ ضمن اینکه در صورت فیلتر نمودن دادهها به صورت متفاوت یا استفاده از منابع مختلف در طول آنالیز ممکن است دادههای حاصل از یک ساختار دادهکاوی مشابه نیز نتایج متفاوتی را ارائه نمایند. بهرحال، دادههای واقعی در مدل ذخیره نمیشوند، بلکه در ساختار دادهکاوی استقرار یافته و تنها خلاصهای از اطلاعات آماری آنها در مدل ذخیره میگردد. در صورتی که کاربر در هنگام انتخاب مدل، اقدام به ایجاد فیلتر برروی دادهها نماید، تعاریف مربوط به فیلتر نیز همراه با Objectهای مدل ذخیره میشود.
مدل شامل مجموعهای از پیوندها است که بر اساس دادههای Cacheشده در ساختار دادهکاوی ایجاد شدهاند. مزیت این پیوندها آن است که در صورت Cacheشدن دادهها در ساختار و حذف نشدن آن بعد از پردازش میتوان کاربران را قادر به بررسی دقیق مواردی نمود که از نتایج پشتیبانی میکنند. با این وجود دادههای واقعی در Cache ساختار ذخیره میشوند نه در مدل.
تعریف مدلهای دادهکاوی
ارائه مدل دادهکاوی با استفاده از مراحل زیر صورت میگیرد:
- ایجاد یک ساختار زیربنایی برای هدف دادهکاوی و گنجاندن ستونهای مورد نیاز از دادهها
- انتخاب مناسبترین الگوریتم برای انجام امور مرتبط با آنالیز دادهها
- انتخاب چند ستون از ساختار جهت استفاده در مدل و تعیین چگونگی استفاده از آن، در اینجا ستون شامل نتایج مورد نظرکاربر برای پیشبینی شده و صرفا به دادههای ورودی اختصاص مییابد.
- ایجاد پارامترها به صورت انتخابی جهت تنظیم دقیق فرآیند پردازش از طریق الگوریتم
- استقرار دادهها در مدل با پردازش ساختار و مدل
بیشتر بخوانید: مفهوم و نحوه کارکرد دادهکاوی یا Data Mining – قسمت اول
Analysis Services به ارائه ابزارهای زیر برای مدیریت مدلهای دادهکاوی میپردازد:
- Data Mining Wizard به کاربران کمک میکند تا یک ساختار و مدل دادهکاوی مرتبط با آن را ارائه نمایند. این Wizard میتواند ساختار دادهکاویِ مورد نیاز را به صورت خودکار ایجاد نماید و در پیکربندیِ تنظیمات مهم به کاربران کمک کند.
- DMX CREATE MODEL برای تعریف مدل به کار رفته و ساختار مورد نیاز به صورت خودکار و به عنوان بخشی از فرآیند ایجاد میشود، بنابراین با این روش نمیتوان یکبار دیگر از ساختار موجود استفاده کرد. لازم به ذکر است که این روش تنها زمانی به کار میرود که نوع مدل درخواستی کاربر دقیقا مشخص باشد یا هدف Script نمودن مدلها باشد.
- DMX ALTER STRUCTURE ADD MODEL برای افزودن یک مدل دادهکاوی جدید به ساختار موجود به کار میرود. در صورتی از این روش استفاده میشود که کاربر قصد آزمایش و تِست مدلهای مختلف را بر اساس مجموعه دادههای مشابه داشته باشد.
علاوه بر موارد ذکر شده، میتوان مدلهای دادهکاوی را از طریق برنامهنویسی و با استفاده از AMO ،XML/A یا Clientهای دیگری مانند Data Mining Client for Excel ارائه نمود.
ـــــــــــــــــــــــ
بررسی مدلهای دادهکاوی و سرویسهای آنالیز – قسمت اول
بررسی مدلهای دادهکاوی و سرویسهای آنالیز – قسمت دوم (پایانی)