دیدگاه یک دانشمند علم داده برای شیوع ویروس کرونا (Data Science for Corona)

نوشته شده برای at 2020-03-03
936 ۰

دیدگاه یک دانشمند علم داده برای شیوع ویروس کرونا

ویروسی که برای اولین بار از شهر Wuhan در چین گزارش شده بود اکنون ۱۰ ها  کشور از سر تا سر جهان را در بر گرفته و باعث ایجاد جرقه ای بی سابقه در زمینه سلامت و اقتصاد شده است.همچنین سازمان سلامت جهانی (WHO) شیوع ویروس کرنای شهر Wuhan را اعلام کرده است. در این مقاله نگاهی کوتاه به بحران فعلی خواهیم داشت و سپس به صورت عمیق تر وارد  دیتاست Novel Corona Virus 2019  از سایت Kaggle می شویم . همچنین من یک Repository GitHub ایجاد کرده ام برای هرکسی که علاقه داشته باشد این مراحل را مجدد انجام دهد و برداشت شخصی خود را اضافه نماید.

ویروس کرنا چیست؟

بر طبق اعلام WHO ، کرنا یک خانواده بزرگ از ویروس ها می باشد که باعث ایجاد بیماری از یک سرماخوردگی ساده  تا خطرات جدی تر شبیه سندروم حاد تنفسی می شود. ویروس کرنا یک صفت موروثی جدید است که قبلا درانسان ها پیدا نشده بود. ازاین ویروس شناخته شده به عنوان عامل شیوع اخیر شهر Wuhan  یاد شده است.

بحران امروز:

طبق گزارش اخیر از New York Times تعداد افراد مبتلا به این ویروس تا ۳۷۱۹۸  نفر افزایش پیدا کرده است و تعداد مرگ افراد در چین به ۸۱۱ نفر رسیده است که بیش از تلفات همه گیر ناشی از SARS در سال های پیش بوده است.

۱۶ شهر در چین با جمعیت ترکیبی بیش از ۵۰ میلیون نفر نمی توانند کاری کنند و محبوس شده اند . خطوط هوایی در سراسر جهان ، پرواز به مقصد چین و از مبدا چین را ممنوع اعلام کرده است. برخی کشورها ، شهروندانشان را از طریق پرواز های خاص از چین می برند .علاوه بر این، آن ها را تحت قرنطینه ای دقیق قرار می دهند.

با بدتر شدن وضعیت ، بازارهای سهام در چین فروکش کرده اند و بازارهای سراسر جهان این اثرات را احساس می کنند. برخی از تحلیلگران پیش بینی می کنند که شیوع این بیماری تهدیدی برای اقتصاد جهانی است و این پتانسیل را دارد که عواقب سیاسی-جغرافیایی بسیار دور از ذهن را به دنبال داشته باشد.

معرفی دیتاست:

دیتاست Novel Corona Virus 2019 روی وب سایت Kaggle از طریق دانشگاه John Hopkins جمع آوری شده است. این تیم، داده ها را از منابع مختلفی مثل مانند WHO  و رسانه ها جمع آوری کرده است. لطفا دقت داشته باشید که دیتاست به روز نشده است پس ممکن است مشاهدات ضبط شده ی زیر بازتاب درستی از سناریو ی در حال حاضر نداشته باشد.

وارد کردن کتابخانه ها و بارگذاری داده:

توضیح دیتاست:

در ابتدا می خواهیم درک کلی از دیتاست داشته باشیم و اگر لازم است بعضی از داده ها را نیز پاک کنیم.

خروجی  (۷۷۰,۸) را نشان می دهد یعنی شامل ۷۷۰ سطر و ۸ ستون در دیتاست می باشد.

نام ستون ها، گویای نقش آنها می باشد. به نظر می آید sno  همان آیدی است که تاثیری هم در تحلیل داده ها ندارد. پنجمین ستون LastUpdate  همان مقدار ستون Date را نشان می دهد جز اینکه برای چند مورد خاص اعداد به روز شده اند. بنابراین این دو ستون را قبل از پردازش  پاک می کنیم.

به جز ستون Province/State  هیچکدام از ستون ها مقدار خالی (null) ندارند. علاوه براین، تحلیل ها نشان می دهد که نام استان ها برای کشورهایی مثل UK,France,India فراموش شده است. ما نمی  توانیم مقادیر فراموش شده را باتوجه به لیست های اصلی پر کنیم. بنابراین روی ستون های عددی تمرکز می کنیم.

متد describe() وضعیت کلی ستون های عددی را بر می گرداند. اولین نتیجه ای که از خروجی  می توانیم بگیریم این است که داده به صورت تجمعی گزارش شده است. تعداد موارد گزارش شده در هر روز خاص شامل مواردی است که قبلاً گزارش شده است. بیش ترین مقدار مرگ و میر ۴۷۹ است که مطابق با گزارش های رسانه ای چند روز پیش می باشد .( یعنی زمانیکه که این داده ها منتشر شده است.)

متد duplicated() یک سری بولی را که بعداً به عنوان ماسک در dataframe اصلی استفاده می شود ، برمی گرداند .خروجی نشان می دهد که هیچ دو رکوردی ، یک استان ،کشور و تاریخ را ندارند. بنابراین می توان نتیجه گرفت که همه مشاهدات (سطرها) در دیتاست یکتا هستند.

داده نشان می دهد ویروس در بین ۳۳ کشور در آسیا، اروپا و آمریکا گسترش پیدا کرده است. برای این تجزیه و تحلیل ، ما می توانیم داده ها را برای “چین” و “سرزمین اصلی چین” ادغام کنیم.

قبل از ادامه دادن اجازه دهید تا تاریخ را در ستون Date چک کنیم.

به نظر می رسد که داده ها در زمان های مختلف  و هر روز به روز شده اند. ما می توانیم تاریخ را از timestamp به دست آوریم و آن را برای تحلیل های بعدی مورد استفاده قرار دهیم. این به ما کمک می کند تا تاریخ را به صورت یکپارچه نگه داریم.

می خواهیم  از تأثیر شیوع این بیماری بر روی هر کشور مطلع شویم.

از آنجا که داده ها به صورت تجمعی هستند نیاز داریم که از تابع Max() همراه با groupby() برای به دست آاوردن بیش ترین موارد گزارش شده ی هر کشوراستفاده کنیم. اگر از تابع sum() استفاده کنیم شمارش دو برابر می شود.

این داده ها تأیید می کنند که چین بیش ترین تعداد گزارش شده را داشته است  و تقریباً از کشته شدن ۴۸۱ مورد تاکنون خبر می دهد. از طرفی با دید مثبت ، چین ۵۲۲ مورد و پس از آن تایلند ۷ مورد  بهبودی داشته است.

ما مراحل آماده سازی داده ها را انجام داده ایم ، اکنون به تصویر سازی داده ها می پردازیم تا روند و الگوهای نو ظهور را کشف کنیم.

ترسیم داده ها:

برای بصری سازی داده ها از دو کتابخانه معروف پایتون یعنی matplotlib و seaborn استفاده می کنیم. Matplotlib کتابخانه بصری پیش فرض ۲بعدی هست که مورد استفاده اکثر دانشمندان علم داده می باشد. seaborn پس از matplotlib ساخته شده است  و به ما کمک می کند ظاهری بهتر و بصری سازی پیچیده تری شبیه heatmap بسازیم.

اکنون ۵ تجسم زیر را بر اساس ابعاد مختلف داده به دست می آوریم:

۱٫    تعداد موارد تایید شده در طول زمان

۲٫ نرخ مرگ و میردر مقایسه با نرخ بهبودی 

۳٫ ۱۰ کشورموثر علاه بر چین با بیشترین تاثیر

۴٫ نرخ مرگ و میر در طول زمان

۵٫ نگاه دقیق تر به ۱۰ استان چین با بیش ترین تاثیر 

مشاهدات:

۱٫    از ۲۸ ژانویه تعداد موارد گزارش شده ی روزانه نزدیک به ۲۵۰ درصد افزایش داشته است . تعداد موارد گزارش شده در تاریخ ۴ فوریه ۳۹۱۵ عدد بوده است. این نشان می دهد که ویروس بسیار مسری است و به سرعت در حال گسترش است.

۲٫    در طول هفته ی اول سرعت مرگ بیشتر از سرعت بهبودی بوده است. از تاریخ ۳۱ ژانویه ، سرعت بهبودی بالا رفته است و روند مثبتی را نشان می دهد. در ۴ فوریه ۲۵۵ بهبودی در مقایسه با ۶۶ کشته وجود داشته است. با آشنایی بیشتر افراد با علائم ، سرعت بهبودی ادامه خواهد یافت.

۳٫    کشورهایی که از لحاظ جغرافیایی نزدیک به چین هستند ، مانند تایلند ، ژاپن و سنگاپور ، نسبت به سایر کشورهای آسیایی و اروپایی موارد بیشتری را گزارش کرده اند. آلمان یک استثناء است و بیشترین تعداد موارد در اروپا را دارد.

۴٫    میزان مرگ و میر هرگز از ۳ درصد عبور نکرده است و به تدریج به ۲ درصد کاهش می یابد. بهبودهای بیشتر در هفته های آینده ممکن است باعث کاهش بیشتر این موارد شود.

۵٫    استان Hubei چین مرکز این شیوع است. این موارد به مراتب بیشتر از سایر استانهای دیگر در گزارش شده است. برخی از استانها وجود دارند که هیچ کشته ای نداشته اند  و همه مبتلایان بهبود یافته اند.

چکیده و نتیجه گیری:

این تحلیل ها هشداهایی را گوش زد می کند که ویروس شهر Wuhan  در حال گسترش می باشد. دست کم ۸۱۱ نفر در جریان این بیماری همه گیر جان خود را از دست داده اند که بیش تراز۷۴۴ مورد تلفات گزارش شده ی بیماری SARS در هفت سال گذشته  است. امیدوارم که این ویروس هرچه زودتر مهار شود.

منابع:

https://towardsdatascience.com/a-data-scientists-perspective-on-the-wuhan-coronavirus-4d1110446478

اطلاعات نویسنده:

نام و نام خانوادگی: ملیکا بهمن آبادی

مقطع و رشته تحصیلی: کارشناسی ارشد داده کاوی از دانشگاه شاهد

آدرس پروفایل : melika-bahmanabadi-6729aa19a

آدرس ایمیل : melika.bahmanabadi@shahed.ac.ir

نوشته مرتبط

دیدگاه خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *