Detect Depression In Conversations
مدل به طور طبیعی می تواند افسردگی را در مکالمات تشخیص دهد
شبکه عصبی، الگوهای گفتاری که افسردگی را در مصاحبه های بالینی پیش بینی می کند، می آموزد.
Rob Matheson | دفتر اخبار MIT
۲۹ اوت ۲۰۱۸
برای تشخیص افسردگی، پزشکان با بیماران مصاحبه می کنند و سؤالات خاصی را در مورد بیماری های روحی گذشته، شیوه زندگی و خلق وخوی آنها میپرسند و شرایط را بر اساس پاسخ بیمار مشخص می کنند.
در سال های اخیر، یادگیری ماشین به عنوان یک ابزار مفید برای تشخیص، مورد حمایت و توجه قرار گرفته است. برای مثال، مدل های یادگیری ماشین می توانند کلمات و زیر و بم صدا در گفتار را که ممکن است افسردگی را نشان دهند، شناسایی کنند. اما این مدل ها بر اساس پاسخ های خاص فرد به سوالات خاص افسرده بودن را پیش بینی می کنند. این روش ها دقیق هستند، اما وابستگی آنها به نوع سوالات پرسیده شده، چگونگی و جایی که می توان از آنها استفاده کرد را محدود می کند.
در مقاله ای که در کنفرانس Interspeech ارائه شده است، محققان MIT یک مدل شبکه عصبی را ارائه کردند که می تواند بر روی متن خام و داده های صوتی مصاحبه ها اجرا شده و الگوهای گفتاری که نشانگر افسردگی را کشف کند. با توجه به این روش با ارائه یک موضوع جدید، بدون نیاز به هر گونه اطلاعات اضافی در مورد سوالات و پاسخ می توان دقیقا افسرده بودن فرد را پیش بینی کرد.
محققان امیدوارند که این روش بتواند برای توسعه ابزارهایی برای تشخیص علائم افسردگی در مکالمه طبیعی استفاده شود. در آینده، این مدل می تواند در افزایش قابلیت برنامه های تلفن همراه که متن و صدای کاربر را برای تشخیص ناراحتی ذهنی، کنترل می کنند استفاده شود و آنها را قادر به ارسال هشدارکند. این امر می تواند برای کسانی که نمی توانند برای تشخیص اولیه به دلایلی نظیر فاصله، هزینه، یا کمبود آگاهی درباره مشکل خود به کلینیک مراجعه کنند، مفید باشد.
نویسنده اصلی Tuka Alhanai، محقق در آزمایشگاه اطلاعات کامپیوتری و هوش مصنوعی (CSAIL) می گوید “اولین نکاتی که ما از از طریق سخنرانی یک فرد بدست می آوریم این است که فرد خوشحال، هیجان زده، غمگین و یا در شرایط شناختی جدی، مانند افسردگی است.“ “اگر میخواهید مدل های تشخیص افسردگی را به روش مقیاس پذیری بکار ببرید پس قاعدتا می بایست میزان محدودیت هایی را که بر روی داده هایی که استفاده می کنید به حداقل برسانید. برای استخراج مدل هرمکالمه، براساس تعامل طبیعی و وضعیت فرد، مدل را انتخاب کنید. ”
James Glass نویسنده دوم و یکی از محققان ارشد پژوهشی در CSAIL، می افزاید: البته تکنولوژی هنوز هم می تواند برای شناسایی اختلالات روانی در مکالمه ها در دفاتر بالینی مورد استفاده قرار گیرد، او می گوید: “هر بیمار به طور متفاوتی صحبت خواهد کرد و اگر مدل تغییرات را مشاهده کند میتواند نشانه ای برای پزشک باشد.” او میگوید”این یک قدم به جلو در بررسی اینکه آیا ما می توانیم کمکی به پزشکان ارائه دهیم، می باشد.“
یکی دیگر از نویسندگان این مقاله، Mohammad Ghassemi، عضو موسسه مهندسی پزشکی و علوم (IMES) است.
مدل سازی Context-free
نوآوری کلیدی این مدل در توانایی آن در تشخیص الگوهایی است که نشان دهنده افسردگی است، و سپس آن الگوها، بدون اطلاعات اضافی به افراد جدید map می شود. Alhanai می گوید: ما آن را‘context-free’می نامیم، زیرا شما هیچگونه محدودیتی بر نوع سوالاتی که دنبال آن هستید و نوع پاسخ به آن سوالات اعمال نمی کنید.
از سوی دیگر محققان از تکنیک به نام مدل توالی استفاده می کنند که اغلب برای پردازش گفتار استفاده می شود. با استفاده از این تکنیک، آنها مدل را با توالی داده های صوتی و متنی که از سوالات و پاسخ ها، از افراد افسرده و غیر افسرده، به صورت یک به یک بدست آمده تغذیه می کردند. همانطور که توالی انباشته شده است، مدل الگوهای گفتاری برای افراد با افسردگی یا بدون افسردگی استخراج می کند. واژه هایی مانند «غمگین»، «کم» یا «پایین» ممکن است با سیگنال های صوتی که آرام تر و و یکنواخت تر هستند، مرتبط می شوند. افراد مبتلا به افسردگی ممکن است آرام تر صحبت کند و از مکث طولانی تر بین کلمات استفاده کنند. این شناسه های متنی و صوتی برای اختلال روانی در تحقیقات قبلی مورد بررسی قرار گرفته است. در نهایت مدل تعیین می کرد که آیا هر الگو افسردگی را پیش بینی میکند یا خیر.
Alhanai می گوید: “مدل توالی، کلمات یا سبک گفتار را می بیند و تعیین می کند که این الگوها بیشتر در افراد افسرده یا غیرافسرده دیده می شود. سپس، اگر توالی های مشابه را در موضوعات جدید ببیند، می تواند پیش بینی کند که آنها نیز افسرده اند.“
این تکنیک توالی نیز به مدل کمک می کند تا به مکالمه به عنوان یک کل نگاه کند و تفاوت های بین این که چگونه افراد با افسردگی و بدون افسردگی در طول زمان صحبت می کنند، توجه کنند.
تشخیص افسردگی
محققان مدل خود را بر روی datasetای از ۱۴۲ مصاحبه تجزیه و تحلیل افسردگی که شامل مصاحبه های صوتی، متن و مصاحبه های ویدئویی از بیماران با مسائل بهداشت روانی است، آموزش داده و آزمایش کردند. هر سوژه با توجه به افسردگی در مقیاس بین ۰ تا ۲۷، با استفاده از پرسشنامه سلامت شخصی ارزیابی می شود. نمرات بالاتر ازبازه های (۱۰ تا ۱۴) و (۱۵ تا ۱۹)افسرده در نظر گرفته شده، در حالی که بقیه نمرات زیر این آستانه افسرده در نظر گرفته نمی شود. از میان همه افراد در مجموعه داده ها، ۲۸ مورد (۲۰ درصد) به عنوان افسرده نامگذاری شده اند.
در آزمایشات، مدل با استفاده از معیارهای precision و recall مورد ارزیابی قرار گرفت. معیارprecision افراد مبتلا به افسردگی شناسایی شده توسط این مدل را افسرده تشخیص داد. Recall دقت مدل را در تشخیص همه افراد که در کل dataset افسرده تشخیص داده می شود را اندازه گیری می کند. در precision، مدل ۷۱ درصد و recall 83 درصد به دست آورد. نمره ترکیبی میانگین برای این معیارها، با توجه به هر گونه اشتباه، ۷۷ درصد بود. در اکثر آزمایشات، مدل محققان تقریبا از مدل های دیگر بهتر عمل کرد.
Alhanai یادآور می شود که یک دید کلی از تحقیق این است که در طول آزمایش، مدل نیاز به اطلاعات بسیار بیشتری برای پیش بینی افسردگی از صدا نسبت به متن داشت. با استفاده از متن، مدل می تواند به طور دقیق افسردگی را با استفاده از میانگین هفت توالی سوال و پاسخ تشخیص دهد. با صدا، مدل مورد نیاز حدود ۳۰ توالی است. Alhanai می گوید: “این بدان معنی است که الگوها با استفاده از کلماتی که مردم در متن استفاده می کنند نسبت به کلماتی که در صوت استفاده می کنند، زودتر افسردگی را پیش بینی میکند.” چنین بینش می تواند به محققین MIT و دیگران کمک کند تا مدل های خود را بهبود بخشند.
Glass می گوید: این کار بسیار دلگرم کننده است. اما اکنون محققان به دنبال کشف الگوهای خاصی هستند که مدل بر اساس scores داده های خام مشخص می کند.
محققان همچنین قصد دارند این روش ها را بر روی داده های بیشتر که ازافراد بیشتر که شرایط شناختی مانند بیماری دمانس دارند را آزمایش کنند.
منابع:
http://news.mit.edu/2018/neural-network-model-detect-depression-conversations-0830
دانشگاه آزاد اسلامی واحد تهران شمال
گردآورنده: دکتر سروش فروزانی ” دانشجوی دکترای هوش مصنوعی “