اگر در حوزه تکنولوژی فعالیت داشته باشید و یا دانشجوی رشته های مهندسی و کامپوتر باشید حتما تا به حال نام دیتاساینس به گوشتان خورده است؛ آن هم با صفت هایی مثله پردرآمدترین شغل دنیا!!
با توجه به جدید بودن و تغییرات زیادی که این رشته در سالهای اخیر داشته است، پاسخ دقیق برای سوال علم داده چیست وجود ندارد اما به طور کلی میتوان دیتاساینس را بصورت زیر معرفی کرد:
علم داده (Data Science) به ترکیب منحصربهفردی از اصول و روشها، اعم از تحلیل، مهندسی و علم ارتباطات اشاره دارد که میکوشد از دادهها، ارزش اقتصادی خلق کند. دیتاساینس شامل مجموعهای از اصول، مسائل، الگوریتمها و فرایندهاست که برای استخراج الگوهای غیرواضح و قابلاستفاده از حجم بزرگ دادهها بهکار گرفته میشود.
علم داده یا داده کاوی
حتما در رابطه با ارزشمند بودن داده ها تا به حال بسیار شنیدهاید. به طوری که میتوان گفت این دیتاها ابزار قدرت اکثر بیزینس های بزرگ و دولت هاست؛
در دهه های اخیر، با پیشرفته شدن تکنولوژی ها از جمله اینترنت، کار جمع آوری داده ها سرعت بسیار بیشتری گرفته است. اما مسئله بوجود آمده تحلیل و پردازش این حجم از دیتاهای ذخیره شده است!
این موضوع باعث شده که دانش های جدیدی مرتبط با داده ها شکل گیرد و شغل های جدید بسیاری با عنوان های مختلف بوجود آیند. (مانند داده کاوی، علم داده، تحلیل داده و…)
علم داده معمولا با داده کاوی (Data Mining) یکسان در نظر گرفته می شود. اما دیتاساینس علاوه بر تحلیل داده ها، تمام فرایندهای مرتبط با دیتاها را (از جمع آوری تا ارائه راهکارهای داده محور) را در بر میگیرد؛
پیشنیاز علم داده و دیتاساینس چیست؟
علم داده یک دانش میان رشته ای است که با توجه به گسترده بودن داده ها، نیازمند به قدرت تحلیل و پردازش در اکثر زمینه ها را دارد.
دیتاساینس ارتباط بسیاری با دو رشته ی علوم کامپیوتر و ریاضیات (آمار و احتمالات) دارد. البته به این معنی نیست که ابتدا باید در زمینه برنامه نویسی و ریاضیات متخصص شوید و سپس سراغ دیتاساینس بیایید! ولی اگر به این زمینه ها علاقه مند نیستید، احتمالا دیتاساینس هم برای شما جذاب نخواهد بود.
یک متخصص علم داده، داده های جمع آوری شده را با استفاده از برنامه نویسی و تحلیل های آماری پردازش میکند و با علم احتمالات، پیش بینی ها و راهکارهایی را درمورد موضوع مورد نظر ارائه میدهد.
باتوجه به اینکه یک دیتاساینس بر روی چه نوع داده هایی کار میکند، لازم است که دانش مورد نیاز با آن رشته را نیز داشته باشد. بطور مثال بازاریابی، پزشکی، صنعت، بیمه و…
تحصیلات در رشته کامپیوتر برای ورود به دنیای علم داده
یکی از سوال هایی که اکثر دانشجویان رشته های متفاوت از کامپیوتر دارند، این است که دیتاساینس یک رشته علوم کامپیوتر است و یا میتوان از سایر رشته ها نیز وارد دنیای علم داده شد؟
همانطور که قبلا هم اشاره کرده ایم، علم داده یک دانش میان رشته ای است که تمام حوزه ها را در بر میگیرد. درست است که برای انجام پروژه های دیتاساینس به برنامه نویسی کامپیوتری نیاز دارید اما اگر در زمینه رشته خود تخصص دارید و میدانید که چه بلایی باید سر داده ها بیاورید! یاد گرفتن کدنویسی و مبانی اولیه علم داده کار زیاد سختی نیست؛
مثلا اگر در رشته های علوم انسانی تحصیل میکنید، میتوانید در زمینه ی تحلیل داده های روانشناسی و جامعه شناسی فعالیت کنید. اگر علوم تجربی میخوانید، تحلیل داده های پزشکی و زیستی جزو داغ ترین مباحث روز است. همینطور برای رشته مدیریت، انجام بازاریابی و تصمیم گیری داده محور جزو ضرورت های امروزی است.
کدام زبان برنامه نویسی برای دیتاساینس مناسب تر است؟
یادگرفتن برنامه نویسی جزو ضرورت های علم داده است. البته برنامه نویسی یک ابزار برای سرعت بخشی و ساده سازی فرآیند های تحلیل داده است، و یاد گرفتنش ساده تر از چیزی است که فکرش را میکنید!
بطور مثال بسیاری از پیش پردازش های مورد نیازی که قرار است بر روی داده ها اجرا شود را میتوان داخل برنامه اکسل نیز انجام داد. ولی یک زبان برنامه نویسی مانند پایتون اینکار را بسیار آسان کرده است.
پایتون کتابخانه های زیادی در زمینه های گوناگون علم داده دارد. مانند پیش پردازش داده ها، انجام محاسبات ریاضی، مصورسازی داده ها، الگوریتم های ماشین لرنینگ و هوش مصنوعی و… که این کتابخانه ها (کدهای از پیش آماده شده) کار ما را در انجام یک پروژه دیتاساینس بسیار آسان میکنند؛
علاوه بر کتابخانه ها، کدنویسی با زبان پایتون بسیار ساده است، پایتون به اصطلاح یک زبان سطح بالاست یعنی زبان برنامه نویسی بسیار نزدیک به زبان انسان و قابل فهم است!
البته داشتن تخصص در زبان های دیگر مانند R و SQL (پایگاه داده) نیز مفید است. (مسلط بودن همزمان به پایتون و R در برخی از شرکت ها برای استخدام مزیت حساب میشود)
رشته دانشگاهی علم داده (دیتاساینس)
علم داده نه تنها در ایران بلکه در جهان نیز جزو رشته های جدید است. به همین خاطر تعداد دانشگاه هایی که این رشته را دارند و دانشجویان آن محدود است.
در ایران، دانشگاه شهید بهشتی، بعنوان یکی از زیرشاخههای رشتهی ریاضی کاربردی، این رشته، یعنی دیتاساینس را راهاندازی کردهاست، همینطور دانشگاههای خواجه نصیر، تربیت مدرس و شاهد، در دورهی کارشناسی ارشد، برای ورودی مهر 1399 در رشته علم داده اقدام به پذیرش دانشجو کردند. احتمالاً بزودی، سایر دانشکدهها، در دانشگاههای بزرگ کشور، چنین گرایشی را تعریف و راهاندازی نمایند. ولی در حال حاضر، مقطع دکتری این رشته در ایران وجود ندارد.
ارتباط یادگیری ماشین و یادگیری عمیق با علم داده
پیش بینی ها و پردازش هایی که بر روی داده ها انجام میشود معمولا با استفاده از الگوریتم های هوش مصنوعی مانند یادگیری ماشین (Machine Learning) و یادگیری عمیق (Deep Learning) انجام می شود.
این الگوریتم ها معمولا پیش بینی های بسیار دقیقی بر روی حجم گسترده ای از دیتاها انجام میدهند که از عهده ذهن انسان خارج است.
دیتاساینس به سخت افزار قوی نیازمند است؟
گاهی حجم داده ها بسیار زیاد است و چندین گیگابایت می شود که پردازش کردن آن ها از عهده اکثر کامپیوتر های شخصی خارج است و یا فشار زیادی را بر روی CPU میاورد، پس انجام این پروژه های دیتاساینس نیاز به سخت افزار های کامپیوتری بسیار قوی دارد.
البته برای این مورد هم راه حل های ساده ای وجود دارد، سایت های مختلفی وجود دارند که این امکانات را بر بستر cloud قرر داده اند و معمولا استفاده از آن ها رایگان است! google colab و kaggle دو مورد از معروف ترین سرویس های این حوزه هستند که اکثر دیتاسانتیست ها و کسانی که در حوزه هوش مصنوعی فعالیت دارند با آنها آشنا هستند.
فرق بین هوش مصنوعی و علم داده چیست؟
علوم داده، ماشین لرنینگ و هوش مصنوعی در یک دامنه قرار دارند، اما معمولا از الگوریتم های هوش مصنوعی به عنوان یک ابزار برای پردازش های مرتبط با هوش مصنوعی استفاده میشود و خود هوش مصنوعی بیشتر برای ساخت محصول استفاده می شود.
کلمه هوش مصنوعی بسیار گسترده است و هرساله تغییرات بسیاری می یابد و کشف های جدیدی در این حوزه صورت میگیرد.
بطور خلاصه میتوان گفت که یک متخصص هوش مصنوعی نسبت به یک متخصص علم داده باید دانش برنامه نویسی و ریاضیات قوی تری داشته باشد، اما یک دیتاساینس به قدرت تحلیل داده ها و آمار و احتمالات نیاز دارد. همینطور یک متخصص علم داده نیاز دارد که دانش خود را در زمینه فعالیتش (بازاریابی، پزشکی، صنعت و…) گسترش دهد؛