عنوان مقاله:
تشخیص زودهنگام افسردگی در رسانه های اجتماعی با استفاده از یادگیری عمیق و احساسات نهفته
Early depression detection in social media based on deep learning and underlying emotions
سال انتشار: 2022
رشته: مهندسی کامپیوتر - مهندسی فناوری اطلاعات - روانشناسی
گرایش: هوش مصنوعی - اینترنت و شبکه های گسترده - روانشناسی بالینی - روانشناسی عمومی
دانلود رایگان این مقاله:
دانلود مقاله افسردگی در رسانه های اجتماعی
مشاهده سایر مقالات جدید:
5. Experimental validation
5.1. Dataset
The experiments relied on a data set published as part of the eRisk 2017 [49]. It encompasses a collection of messages in English from Reddit users. The dataset includes the list of posts from users, up to 2000 posts overall, with the following fields: title, date, and text. The title and text fields were concatenated and used in the experiments. The collected messages are organized in chronological order, including data from 887 users (135 labeled as depressive and 752 labeled as nondepressive). As reported in [39], for the construction of the dataset, depressive users were identified by finding posts that clearly mention a diagnosis (e.g., ‘‘I was diagnosed with depression’’). The dataset was randomly divided into training and test sets. The training set consists of 486 users (83 positive and 403 negative). The test set contains 401 users (52 positive and 349 negative). There is no overlap between training and test users. A summary of the characteristics of the dataset and users is shown in Table 1.
5.2. Configuration
The rationale is to simulate systems that monitor social media and analyze the posts made by users. To simulate this, the data were divided into ten blocks, each containing 10% of each user’s messages in chronological order. The first block contains the 10% of the oldest messages, the second block contains the next 10% of the oldest messages, and so on. In this fashion, by joining the first and second blocks, for instance, one gets the 20% oldest messages.
The task is carried out in two phases: the training phase and the testing phase. The testing data are divided into ten blocks. In that one, each block should be processed individually, given a particular characteristic of early risk detection task: support for classification with partial information available at different moments in time. The starting blocks contained the oldest posts, while the ending blocks had the most recent ones. Given the experimental nature, when processing a block the system could take action to three possibilities: classify a user as depressive, non-depressive or postpone the decision, indicating that it is necessary to analyze more data blocks (more posts/time).
(دقت کنید که این بخش از متن، با استفاده از گوگل ترنسلیت ترجمه شده و توسط مترجمین سایت ای ترجمه، ترجمه نشده است و صرفا جهت آشنایی شما با متن میباشد.)
5. اعتبار سنجی تجربی
5.1. مجموعه داده
آزمایشها به مجموعه دادهای که بهعنوان بخشی از eRisk 2017 منتشر شد، متکی بودند [49]. این شامل مجموعه ای از پیام ها به زبان انگلیسی از کاربران Reddit است. مجموعه داده شامل لیستی از پست های کاربران، تا 2000 پست در کل، با فیلدهای زیر است: عنوان، تاریخ و متن. فیلدهای عنوان و متن به هم متصل شدند و در آزمایشها استفاده شدند. پیامهای جمعآوریشده به ترتیب زمانی سازماندهی شدهاند، شامل دادههای 887 کاربر (135 با برچسب افسردگی و 752 برچسب غیر افسردگی). همانطور که در [39] گزارش شد، برای ساخت مجموعه داده، کاربران افسرده با یافتن پست هایی که به وضوح یک تشخیص را ذکر می کنند، شناسایی شدند (به عنوان مثال، "تشخیص داده شد که من افسردگی دارم"). مجموعه داده ها به طور تصادفی به مجموعه های آموزشی و آزمایشی تقسیم شدند. مجموعه آموزشی شامل 486 کاربر (83 مثبت و 403 منفی) است. مجموعه تست شامل 401 کاربر (52 مثبت و 349 منفی) است. بین کاربران آموزشی و آزمایشی همپوشانی وجود ندارد. خلاصه ای از ویژگی های مجموعه داده و کاربران در جدول 1 نشان داده شده است.
5.2. پیکربندی
منطق آن شبیه سازی سیستم هایی است که رسانه های اجتماعی را رصد می کنند و پست های ارسال شده توسط کاربران را تجزیه و تحلیل می کنند. برای شبیه سازی این، داده ها به ده بلوک تقسیم شدند که هر بلوک شامل 10 درصد از پیام های هر کاربر به ترتیب زمانی بود. بلوک اول شامل 10٪ از قدیمی ترین پیام ها، بلوک دوم شامل 10٪ از قدیمی ترین پیام ها و غیره است. در این روش، برای مثال، با پیوستن به بلوک های اول و دوم، 20٪ قدیمی ترین پیام ها را دریافت می کنید.