فرآیند ارزیابی نحوه عملکرد مدلهای دادهکاوی یا Data Mining در مقابل دادههای واقعی را تحت عنوان تایید یا Validation نامگذاری نمودهاند. نکته بسیار حائز اهمیت قبل از پیادهسازی مدلهای دادهکاوی در یک محیط حفاظت شده، تایید این مدلها با درک کیفیت و ویژگیهای آنهاست.
در این مقاله به معرفی برخی مفاهیم اساسی مربوط به کیفیت مدل و همچنین شرح روشهای اعتبارسنجی مدل، که توسط Microsoft Analysis Service ارائه شده است، خواهیم پرداخت. البته لازم به ذکر است در مقالات پیشین مدل های داده کاوی مورد بررسی قرار گرفته شده بود.
روشهای مورد استفاده در تست و تایید مدلهای دادهکاوی
به منظور ارزیابی کیفیت و ویژگیهای مدل دادهکاوی، روشهای زیادی ارائه شده است.
- برای تعیین اینکه مشکل مربوط به دادهها میباشد یا مدلهای دادهکاوی، از معیارهای مختلف اعتبار آماری استفاده میشود.
- دادهها به مجموعههای آموزشی و آزمایشی تفکیک میشوند تا میزان دقت پیشبینیها بررسی گردد.
- به منظور تعیین اینکه آیا الگوهای یافت شده برای هدف خاص تجاری کارایی دارند یا خیر، از کارشناسان تجاری درخواست میشود تا نتایج مدل دادهکاوی را بررسی نمایند.
تمامی این روشها در مدل دادهکاوی موثر بوده و پس از اینکه مدلها بر حسب نیاز ایجاد، بررسی و تصحیح شدند بصورت تکراری به اجرا در میآیند. لازم به ذکر است که هیچ قانون جامعی نمیتواند تعیین کند که چه زمانی یک مدل به اندازه کافی خوب محسوب میشود و یا چه زمانی دادهی کافی را در اختیار دارید.
معیارهای تایید مدل دادهکاوی
معیارهای دادهکاوی به چند دسته تقسیمبندی میشوند:
- دقت (Accuracy)
- قابلیت اطمینان (Reliability)
- سودمندی (Usefulness)
دقت (Accuracy)، معیار سنجشی است که میزان توانایی یک مدل در مرتبط نمودن نتیجه با ویژگیهای اطلاعات موجود را مشخص مینماید. معیارهای دقت متفاوت بوده اما تمامی این معیارها به نوع اطلاعات مورد استفاده بستگی دارند. در واقعیت، اطلاعات ممکن است گم شوند یا تقریبی باشند و یا پس از اعمال چند فرآیند، دستخوش تغییراتی شوند؛ بنابراین در مرحلهی شناسایی و توسعه، وقوع مقدار مشخصی خطا محتمل خواهد بود به خصوص زمانیکه دادهها و مشخصات آنها تقریبا یکسان باشند. مثلا برای فروشگاهی خاص، مدلی که میزان فروش را بر اساس سابقهی فروش پیشبینی مینماید میتواند به شدت همبسته و دقیق باشد، حتی در صورتیکه فروشگاه مذکور همیشه از روش حسابداری نادرستی استفاده کرده باشد. بنابراین سنجشهای دقت باید با استفاده از ارزیابیهای قابلیت اعتماد مورد بررسی قرار گیرند.
قابلیت اطمینان (Reliability)، با استفاده از این ویژگی، مدل دادهکاوی که بر روی مجموعههای متفاوتی از دادهها اجرا میشوند، مورد ارزیابی قرار میگیرد. یک مدل دادهکاوی زمانی قابل اعتماد محسوب میشود که بدون در نظر گرفتن اطلاعات حاصل از تست، پیشبینیهای مشابهی ایجاد نماید و یا الگوهای کلی مشابهی پیدا کند. برای مثال مدل ایجاد شده برای فروشگاهی که از روش حسابداری نادرستی استفاده مینماید، به دیگر فروشگاهها قابل تعمیم دادن نمیباشد و در نتیجه قابل اعتماد نخواهد بود.
سودمندی یا Usefulnessشامل معیارهای متفاوتی میباشد که نشان میدهد آیا یک مدل، اطلاعات مفیدی در اختیار قرار میدهد یا خیر. برای مثال یک مدل دادهکاوی که محل فروشگاه را با میزان فروش مرتبط مینماید، میتواند به عنوان معیار دقت و قابلیت اطمینان محسوب گردد اما به عنوان معیار سودمندی در نظر گرفته نمیشود؛ چرا که امکان تعمیم نتایج آن با افزودن فروشگاههای بیشتر در مکانی یکسان وجود ندارد. علاوه بر موارد فوق این مدل، پاسخگوی نیازهای اساسی کسبوکارها نمیباشد مثلا پاسخگوی این پرسش نیست که چرا مکانهای خاص، فروش بیشتری دارند. همچنین یک مدل به ظاهر موفق میتواند کاملا بیفایده باشد زیرا براساس همبستگی متقابل در دادهها ایجاد شده است.
ابزار تست و اعتبارسنجی مدلهای دادهکاوی
Analysis Serviceها به منظور اعتبارسنجی راهکارهای دادهکاوی از چند روش پشتیبانی مینمایند که این راهکارها تمامی مراحل بررسی مدل دادهکاوی را تحت پشتیبانی قرار میدهند.
- مجزا نمودن دادهها به دو بخش آزمایشی و آموزشی.
- مدلهای فیلترینگ برای آموزش و بررسی ترکیبهای متفاوت از دادههای یک منبع یکسان.
- اندازهگیری کردن Lift و Gain. یک نمودار Lift روشی برای مصورسازی پیشرفت است که هنگام مقایسه آن با حدس تصادفی، میتوان آن را از مدل دادهکاوی مورد استفاده، استخراج نمود.
- اجرای اعتبارسنجی متقابل یا Cross-Validation مجموعههای داده.
- ایجاد ماتریسهای طبقهبندی. این نمودارها تخمینهای خوب و بد را درون یک جدول قرار میدهند تا تعیین کنند که آن مدل تا چه حد ارزش مورد نظر را درست پیشبینی مینماید.
- ایجاد Scatter Plotها یا طرحهای پراکنده برای ارزیابی مناسب بودن فرمول رگرسیون.
- ایجاد نمودارهای سود که سود مالی یا هزینهها را با استفاده از یک مدل دادهکاوی مرتبط میسازد و در نتیجه امکان ارزیابی مقادیر توصیه شده امکانپذیر خواهد شد.
هدف این معیارها پاسخگویی به این سوال نیست که آیا مدل دادهکاوی پاسخگوی نیازهای کسبوکار میباشد یا خیر، بلکه این معیارها، اندازهگیریهای عینی فراهم مینمایند که میتوان به منظور ارزیابی قابلیت اطمینانِ اطلاعات در تجزیه و تحلیلِ پیشبینی و همچنین برای تصمیمگیری درمورد اینکه آیا باید از یک تکرار خاص در فرآیند توسعه استفاده کرد یا خیر مورد استفاده قرار میگیرند.