دادهکاوی یا Data Mining به فرآیند کشف و شناسایی اطلاعات عملیاتی در مجموعههای بزرگ داده اطلاق میشود. در این فرآیند از آنالیزهای ریاضی برای به دست آوردن الگوها و روندهای موجود در دادهها استفاده میشود. لازم به ذکر است که به دلیل پیچیدگی بیش از حد روابط و یا حجم بالای دادهها معمولا نمیتوان این الگوها را از طریق روشهای قدیمی شناسایی نمود. این الگوها و روندها را میتوان در قالب یک مدل دادهکاوی جمعآوری و تعریف نمود؛ در ضمن این الگوها برای سناریوهای خاصی کارایی دارند که از جمله آن میتوان به موارد زیر اشاره نمود:
- پیشبینی: برآورد میزان فروش، پیشبینی میزان بار بر روی سرور و یا Downtime آن
- ریسک و احتمالات: انتخاب بهترین مشتریان جهت ارسال ایمیلهای هدفمند، تعیین Break-Event Point یا به اختصار BEP برای سناریوهای مرتبط با ریسک، اختصاص احتمالات به موارد شناساییشده یا سایر نتایج
- توصیهها: با شناسایی محصولاتی که احتمال فروش آنها با هم وجود دارد به ارائهی توصیههایی میانجامد.
- یافتن توالیها: با آنالیز انتخابهای مشتریان در سبد خرید آنها، رویدادهای احتمالی آینده را پیشبینی مینماید.
- گروهبندی: تقسیمبندی مشتریان یا رویدادها به گروههای مرتبط که موارد وابسته را آنالیز و پیشبینی مینماید.
مراحل دادهکاوی
در واقع ارائه مدل دادهکاوی یا Data Mining، بخشی از یک فرآیند گستردهتر میباشد که شامل مواردی همچون طرح سوال در خصوص دادهها، ایجاد یک مدل برای پاسخگویی به این سوالات و پیادهسازی مدل در فضای عملیاتی میگردد. فرآیند فوق با استفاده از این شش مرحله اصلی تعریف میشود که در این سری از مقالات مورد بررسی قرار خواهد گرفت:
1- تعریف مساله
2- آمادهسازی دادهها
3- شناسایی دادهها
4- ارائه مدل
5- شناسایی و تایید اعتبار مدلها
6- پیادهسازی و بهروزرسانی مدلها
نمودار زیر نمایشدهندهی چرخهی این فرآیند میباشد که به معنای پویا بودن فرآیند ایجاد مدل دادهکاوی میباشد. پس از انجام شناسایی ممکن است دادههای به دست آمده برای ایجاد مدل کافی نبوده و نیاز به جستجوی دادههای بیشتری باشد؛ ضمن اینکه ممکن است چندین مدل ارائه شود و سپس مشخص شود که این مدلها برای پاسخگویی به مسئله تعریفشده ناکافی میباشد و نیازمند تعریف مجدد مساله باشد. در عین حال این امکان نیز وجود دارد که مدلها پس از انجام پیادهسازی به دلیل افزایش حجم دادههای موجود، نیازمند بهروزرسانی باشند، بنابراین ممکن است هر یک از مراحل این فرآیند به دفعات زیادی تکرار شود تا یک مدل مناسب ارائه گردد.
بیشتر بخوانید: آشنایی با الگوریتمهای دادهکاوی یا Data Mining
Microsoft SQL Server Data Mining به ارائهی یک محیط یکپارچه برای ایجاد مدلهای دادهکاوی و کار با آنها میپردازد. این محیط شامل SQL Server Development Studio است که با بهرهمندی از الگوریتمهای دادهکاوی و ابزارهای Query موجب تسهیل در روند ایجاد یک راهکار جامع برای بسیاری از پروژهها و SQL Server Management Studio میشود که ابزارهایی برای جستجوی مدلها و مدیریت Objectهای دادهکاوی میباشند.
تعریف مساله
مطابق نمودار زیر اولین مرحله از فرآیند دادهکاوی به تعریف دقیق مساله اختصاص یافته و روشهای بهکارگیری دادهها جهت پاسخگویی به مساله را مدنظر قرار میدهد.
در این مرحله مواردی همچون آنالیز الزامات مربوط به کسبوکار، تعریف چارچوب مساله، تعریف معیارهای مورد استفاده برای ارزیابی مدل و تعریف اهداف مشخص برای پروژهی دادهکاوی صورت میپذیرد. این فعالیتها در قالب سوالات زیر بیان میشود:
بیشتر بخوانید: بررسی مراحل تست و اعتبارسنجی در دادهکاوی (Data Mining)
- جستجو برای چه مواردی صورت میگیرد؟ چه نوع روابطی مورد جستجو قرار میگیرد؟
- آیا مسالهای که برای برطرف نمودن آن تلاش میشود، Policyها یا فرآیندهای کسبوکار را منعکس مینماید؟
- آیا تمایلی به انجام پیشبینیها بر اساس مدل دادهکاوی وجود دارد یا هدف صرفا جستجو برای روابط یا الگوهای مورد توجه است؟
- برای پیشبینی کدام نتایج یا خصوصیات تلاش میشود؟
- چه نوع دادههایی دردسترس بوده و چه نوع اطلاعاتی در هر ستون وجود دارد؟ در صورت وجود چندین جدول، این جداول به چه ترتیب با هم مرتبط میشوند؟ آیا به منظور قابل استفاده نمودن دادهها نیازی به پاکسازی برخی دادهها، ادغام یا پردازش آنها وجود دارد؟
- نحوهی توزیع دادهها به چه صورت است؟ آیا دادهها فصلی میباشند؟ آیا دادهها به صورت دقیق بیانگر فرآیندهای کسبوکار میباشند؟
پاسخ به سوالات فوق ممکن است مستلزم انجام تحقیق و بررسی در خصوص دسترسپذیری دادهها باشد تا بدین ترتیب نیاز کاربران با توجه به دادههای دردسترس تامین گردد. در صورتی که دادهها قادر به تامین نیازهای کاربران نباشند، ممکن است نیاز به تعریف مجدد پروژه باشد. ضمن اینکه باید روشهای ثبت نتایجِ مدلها در شاخصهای اصلی عملکرد که برای ارزیابی میزان پیشرفت کسبوکار بهکار میرود، مد نظر قرار گیرد.
در قسمت بعد به بررسی سایر مراحل خواهیم پرداخت.
ــــــــــــــ
مفهوم داده کاوی (Data Mining) و نحوه کارکرد آن – قسمت اول
مفهوم داده کاوی (Data Mining) و نحوه کارکرد آن – قسمت دوم
مفهوم داده کاوی (Data Mining) و نحوه کارکرد آن – قسمت سوم (پایانی)