سیر تحول داده به اطلاعات، اطلاعات به دانش و دانش به خرد را هر علاقه مند حوزه اطلاعات می شناسد. علاقه مندی انسان به تحلیل، سناریوپردازی و پیش گویی رویدادها این سیر تحول را ترسیم نموده است. نیاز به بقاء در انسان بدوی او را ملزم به کنترل داده وجود ذخیره غذایی می کرد. وی با دریافت آن داده اقدام به شکار و یا استراحت می نمود. آسیبهای محیطی بسیار مانند بارندگی نیاز به پیش بینی تحلیلی را در انسان پدید آورد. انسان با کنار هم قرار دادن داده دمای هوا، وجود ابرهای سیاه در آسمان، سرعت حسی باد و تجربیات شرایط بارندگی های گذشته، سعی در اطلاعات سازی و آماده شدن برای شرایط بارندگی نمود. پدیده های پیچیده و پیچیده تری پیش روی انسان قرار گرفتند. هیجان پیش بینی بروز هر پدیده در انسان سبب پیدایش علوم گوناگونی گردید. محققان و اندیشمندان علوم گوناگون مدلهای بی شماری را برای دستیابی به هدف تحلیل و پیش بینی ارائه نمودند. انواع فرمولهای فیزیک و شیمی، فرمولهای مقاومت مصالح، روشهای ریاضی بهینه سازی، مدلهای تصمیم گیری چند معیاره و بسیاری مدل دیگر در این سیر تحول به وجود آمدند. در این بین، حل بسیاری از مسائل پیچیده تر نیاز به داده های متنوع و بیشتر و بیشتر را می طلبید. کسری داده های مورد نیاز هم در متغیرها و هم در حجم داده و نیز عدم وجود زیرساخت محاسباتی کارا جهت محاسبات و تحلیل داده های بزرگ مبنای ایجاد روشهای بر مبنای نمونه گیری گردید. علم آمار در این افق زمانی خدمات بسیاری در تحلیلها ارائه نمود. با به کار گیری مدلها و روشهای مبتنی بر نمونه گیری های آماری خدمات و پیشرفتهای شگرفی در علوم مختلف به دست آمد لکن نرخ این پیشرفتها به مرور زمان کند گردید. علت این کاهش، پیچیده تر شدن مسائل دنیای واقعی و عدم کفایت تحلیلهای نمونه ای در حل آنها بود. گویا نقش به ناچارِ علمِ آمارِ نمونه ای در حال از بین رفتن بوده و حل مسائل پیچیده دنیای واقعی امروز، روشهایی را طلب می کنند که بتوانند حجم کل داده ها را فراهم و تحلیل کنند. یکی از مشکلات محاسبات داده ها، قدرت پردازشگرها بود. طبق قانون مور[۹]، قدرت محاسبات پردازشگرها هر هجده ماه دو برابر می شد و این نویدبخش تامین زیرساخت مواجهه با مشکل محاسبات داده های بزرگ بود. امروزه بسیاری از منابع داده ای[۱۰]، به شکل استاندارد شده قابل دستیابی و به کارگیری بوده و پردازشگرهای نوین با سرعت بسیار زیاد، مناسب برای محاسبات داده های بزرگ ایجاد شده و در حال بهبود و ترقی می باشند.
با رفع مشکلات زیرساختی داده پردازی در کنار نیاز انسان به حل مسائل پیچیده دنیای واقعی، علوم جدیدی مانند دانش داده کاوی ظهور نمود. ماموریت دانش نوین داده کاوی کشف دانش پنهان در داده های بزرگ می باشد. پاسخ سئوالاتی مانند “اگر مشتری، کالای الف و ب را خرید کند حتما کالای ج را نیز خرید خواهد کرد؟” ، “آیا سهام شرکت الف جز گروه سهام های سریع نقد شونده خواهد بود؟”، “قیمت دلار در سه روز آینده چند خواهد بود؟”، “شکل و جهت رشد سلولهای سرطانی در ریه بیمار در هفته آینده چطور خواهد بود؟” را داده کاوی خواهد داد.
مراحل انجام این تحقیق مطابق فرایند CRISP[11] داده کاوی [۱۷] صورت خواهد گرفت. این فرایند به صورت گسترده ای از طرف کاربران صنعتی داده کاوی مورد استفاده قرار گرفته است. این مدل از شش مرحله که به صورت یک فرایند حلقه ای است و در نشان داده شده است تشکیل می گردد.
شکل شماره ‏۳‑۲ : فرایند CRISP
مراحل این فرایند به صورت زیر است:
مرحله تعریف مساله شامل تعریف هدف، ارزیابی شرایط فعلی، تعریف اهداف داده کاوی و ایجاد برنامه زمانبندی پروژه است.
وقتی که هدف مساله مشخص شد و برنامه ریزی پروژه انجام گرفت مرحله تحلیل داده ها نیازمندی های داده ای را مورد مطالعه قرار می دهد. این مرحله شامل تهیه مجموعه داده های اولیه، توصیف داده ها، کنکاش داده ها و ارزیابی کیفیت داده ها می باشد. کنکاش داده ها شامل مشاهده پارامترهای آماری، می تواند در پایان این مرحله نیز اتفاق بیافتد. مدلهایی مثل خوشه بندی می تواند در طول این گام به منظور شناسایی الگوها در داده ها انجام گیرد.
زمانی که منابع در دسترس مشخص شدند، باید داده ها از آنها انتخاب شوند، پاک شوند و در قالب مورد نظر ریخته شوند. همچنین کنکاش عمیق تر داده ها نیز در طول این مرحله که مرحله آماده سازی داده ها می باشد می تواند انجام گیرد. به علاوه ممکن است مدل های دیگری نیز به کار روند تا بتوان الگوها را بر اساس تعریف مساله استخراج نمود.
ابزارهای نرم افزاری داده کاوی همچون تصویرسازی[۱۲] و تحلیل خوشه بندی برای تحلیل های اولیه مفید هستند. ابزارهایی مانند شناسایی قوانین عمومی می تواند قوانینی همبستگی اولیه را استخراج کند. وقتی که فهم بیشتری از داده ها به وسیله شناسایی الگو که با توجه به خروجی های مدلهای اولیه حاصل می شود افزایش می یابد مدلهای تخصصی تر بر حسب نوع داده می تواند مورد استفاده قرار بگیرد. این فعالیت در مرحله مدلسازی صورت می گیرد.
نتایج مدلهای استفاده شده در مراحل قبلی باید در بستر مساله تعریف شده و اهداف تعریف شده در مراحل بعد مورد ارزیابی قرار بگیرد. این کار منجر به شناسایی نیازمندی های بعدی خواهد شد. این نیازها اغلب شامل بازگشت به مراحل قبلی در فرایند CRISP است. تعریف مساله در داده کاوی، فرایند تکراری با بازگشت به عقب است که در آن نتایج اقدامات مدلسازی مختلف و تکرار آنها روابط جدید بین داده ها را به کاربر نشان می دهد که باعث درک عمیق تر از مساله برای کاربر خواهد شد.
داده کاوی هم می تواند برای بررسی صحت فرضیه هایی که قبلا وجود داشته مورد استفاده قرار می گیرد و هم برای کشف دانش: یعنی شناسایی روابط غیر منتظره و مفید. به کمک دانش کشف شده در مراحل قبلی فرایند CRISP مدلهای درست و منطقی حاصل می شوند که می توان آنها را در تجارت و کسب و کار برای اهداف مختلف به کار برد. این اهداف می توانند شامل پیش بینی یا شناسایی شرایط حساس و کلیدی باشند. مدلهای به دست آمده باید در حین استفاده مورد پایش قرار گیرند چرا که چیزی که امروز درست است ممکن است یک سال دیگر درست نباشد، بنابراین اگر تغییرات اساسی در طول استفاده از مدلها به وجود بیاید مدلها باید مجددا ایجاد شوند. از طرفی نتایج حاصل از پروژه های داده کاوی باید ثبت شوند چنانکه اسناد تهیه شده در مطالعات آتی مورد استفاده قرار گیرند.
این فرایند شش مرحله ای به هیچ وجه غیر منعطف نیست. یعنی بسته به شرایط مساله، برخی از مراحل ممکن است حذف شوند یا مورد تاکید بیشتری قرار گیرند.
داده کاوی به منظور کشف دانش پنهان در داده بزرگ[۱۳] از روشها و تکنیکهای زیر استفاده می نماید:
 
 
قواعد انجمنی :[۱۴]الگوهایی که بر اساس آن یک رویداد به دیگری مربوط می‌شود مثلاً خرید قلم به خرید کاغذ
ترتیب[۱۵]: الگویی که به تجزیه و تحلیل توالی رویدادها پرداخته و مشخص می‌کند کدام رویداد، رویدادهای دیگری را در پی دارد مثلاً تولد یک نوزاد و خرید پوشک
پیش بینی[۱۶]: در پیش بینی، هدف پیش بینی یک متغیر پیوسته می باشد. مانند پیش بینی نرخ ارز یا هزینه های درمانی
دسته بندی[۱۷]: فرآیندی برای پیدا کردن مدلی است که رده های موجود در داده‌ها را تعریف می نماید و متمایز می کند، با این هدف که بتوان از این مدل برای پیش بینی رده رکوردهایی که برچسب رده آنها(متغیر هدف) ناشناخته می باشد، استفاده نمود. در حقیقت در رده بندی بر خلاف پیش بینی، هدف، پیش بینی مقدار یک متغیر گسسته است. روش های مورد استفاده در پیش بینی و دسته بندی عموما یکسان هستند.
خوشه بندی[۱۸]: گروه بندی مجموعه ای از اعضاء، رکوردها یا اشیاء به نحوی که اعضای موجود در یک خوشه بیشترین شباهت را به یکدیگر و کمترین شباهت را به اعضای خوشه های دیگر داشته باشند.
بصری سازی[۱۹]: مصورسازی داده ها یکی از قدرتمندترین و جذابترین روش های اکتشاف در داده ها می باشد.
داده کاوی در هر یک از تکنیکهای اشاره شده در بالا از انواع متدها و الگوریتم هایی مانند رگرسیون، آمار توصیفی، آنالیز واریانس، شبکه عصبی مصنوعی، ماشینهای بردار پشتیبان[۲۰] و غیره به فراخور استفاده می نماید.
۳-۳-۲ شبکه عصبی مصنوعی
بشر از دیرباز علاقه مند به پیاده سازی ساختار پردازش مغز انسان در یک سیستم مصنوعی بوده است. مغز انسان به عنوان برترین سیستم پردازش شناخته شده، با دریافت انواع ورودی های اطلاعاتی خروجی های مورد انتظار را در سریعترین زمان ممکن و با بهترین دقت می تواند ارائه نماید. دانشمندان و محققان علوم مختلف همواره کوشیده اند تا از این قابلیت متمایز در پردازش اطلاعات و پاسخ به سئوالات رشته علمی خود بهره مند شوند.
نورون[۲۱] کوچکترین واحد پردازش اطلاعات تاکنون شناخته شده سیستم پردازش مغز انسان است که تاکنون شناخته شده است. شکل شماره ‏۳‑۳ نمایشی از یک نورون می باشد.
شکل شماره ‏۳‑۳ : ساختار یک نورون
هر نورون از سه بخش اصلی تشکیل شده است: هسته[۲۲]، دندریت[۲۳]، اکسون[۲۴]. دندریتها سیگنالهای الکتریکی را از اکسونهای نورونهای دیگر دریافت نموده و آن را به هسته نورون تحویل می دهند. هسته نورون پس از پردازش ورودی ها، سیگنال الکتروشیمیایی به عنوان خروجی تحویل اکسون داده و اکسون آن را تحویل دندریت نورون های دیگر می دهد. محل تلاقی اکسون و دندریت را سیناپس[۲۵] و اتصال آن دو را اتصال سیناپسی که نوعی خاص از اتصال بیولوژیک می باشد می نامند.
شبکه عصبی مصنوعی [۱۸] مدلی محاسباتی الهام گرفته از شبکه عصبی مغز می باشد که با دریافت داده های ورودی، تخمین[۲۶] و یا تابع تقریب[۲۷] را شکل داده و خروجی مورد انتظار را ارائه می نماید. شبکه عصبی مصنوعی در طراحی تابع تقریب به عنوان مثال در پیش بینی سری های زمانی[۲۸]، دسته بندی[۲۹] و شناسایی الگو[۳۰]، پردازش داده ها مثلا در خوشه بندی[۳۱] و فیلترسازی داده ها کاربرد دارند. تشخیص صدا، تشخیص متن، هدایت مسیر ربات نمونه های دیگری از کاربردهای شبکه عصبی مصنوعی هستند. شبکه عصبی مصنوعی سرعت محاسباتی قابل قبولی داشته، در شرایط جدید می تواند پاسخ یکتا ارائه نماید و ضمنا از تجربیات گذشته می آموزد لکن از آنجا که منطق و قاعده کار آن به خوبی قابل تفسیر نیست، به منظور تست و روایی آن نیاز به حجم زیادی داده است.
ساختار شبکه عصبی مصنوعی شامل چندین نورون در لایه بندی مشخص می باشد که با دریافت ورودی ها، خروجی ایجاد می نماید. شکل شماره ‏۳‑۴ نمونه ای از یک شبکه عصبی مصنوعی را نشان می دهد.
شکل شماره ‏۳‑۴ : نمونه ای از یک شبکه عصبی مصنوعی با یک لایه پنهان
انواع مختلفی از شبکه عصبی مصنوعی تاکنون ارائه گردیده است که از آن جمله می توان به موارد زیر اشاره نمود:
شبکه عصبی پیش رو[۳۲]، شبکه عصبی [۳۳]RBF، شبکه عصبی نگاشت خود سازمانده[۳۴]، شبکه عصبی [۳۵]LVQ، شبکه عصبی برگشتی[۳۶]، شبکه عصبی مدولار.
در شبکه های عصبی پیش رو، یک نورون را به صورت در نظر بگیرید:
شکل شماره ‏۳‑۵ : نمونه نورون در شبکه عصبی مصنوعی پیشرو
خروجی هر نورون به صورت معادله (۱) محاسبه می شود:

برای دانلود متن کامل پایان نامه به سایت azarim.ir مراجعه نمایید.

معادله (۱)