وقتی در مورد داده صحبت می کنیم ، معمولاً به برخی از مجموعه های داده بزرگ با تعداد زیادی ردیف و ستون فکر می کنیم. گرچه احتمالا اکثر داده ها به این شکل هستد، اما همیشه اینطور نیست؛
داده ها می توانند به اشکال مختلف باشند: به شکل جدول یا فایل اکسل، تصاویر، فایل های صوتی ، فیلم ها و…
ماشین ها متن ، تصویر یا داده های ویدئوها را به همانطور که هستند درک نمی کنند، بلکه آنها 1 و 0 را می فهمند. بنابراین اگر ما نمایش تصاویر به صورت اسلایدی را ارائه دهیم و انتظار داشته باشیم مدل یادگیری ماشین ما آموزش ببیند، انتظار غیرقابل دسترسی داریم!
در هر فرآیند یادگیری ماشین، پیش پردازش داده ها مرحله ای است که در آن داده ها تغییر شکل داده و یا به اصطلاح کد می شوند تا آنها را به وضعیتی برساند که اکنون کامپیوتر به راحتی آن را تجزیه کند. یعنی کاری کنیم که یک الگوریتم به راحتی بتواند آن را تجزیه و تحلیل کند.
فرآیند پیش پردازش داده ها معمولا به 4 بخش تقسیم می شود:
Data Integration(یکپارچه سازی داده ها)
Data Transformation (تبدیل داده ها)
Data Reduction (کاهش داده ها)
Data Cleaning(تمیز کردن داده ها)
در هر بخش با انجام عملیات های مختلف، داده ی اولیه را برای انجام مدل های دیتاسانی (ماشین لرنینگ) آماده می کنیم.