عنوان مقاله:

 

کمک به بررسی جرم هوشمند با استفاده از دسته بندی کننده های یادگیری ماشین در جرم و اطلاعات قربانی

Intelligent Crime Investigation Assistance Using Machine Learning Classifiers on Crime and Victim Information

سال انتشار: 2021

رشته: حقوق، مهندسی کامپیوتر

گرایش: حقوق جزا و جرم شناسی، هوش مصنوعی

دانلود رایگان این مقاله:

دانلود مقاله جرم هوشمند

مشاهده سایر مقالات جدید:

مقالات ISI حقوق

مقالات ISI مهندسی کامپیوتر

Dataset details and processing


A. Dataset details We collected a completely new dataset for our research. The data were directly collected from Bangladesh Police under the Ministry of Home Affairs of the Government of Bangladesh. This dataset is difficult to find since it is classified data and full of critical information. Although the amount of samples in the dataset was not huge, there was still modest amount of sample just good enough to serve our purpose. There were five different types of features in the dataset and there were four different types of corresponding labels alongside with it. B. Dataset processing The raw dataset had some defects in it so those had to be resolved through some pre-processing steps. First of all, the rows with at least one empty value had to be taken care of. As criminal prediction is a critical task, we decided to drop entire rows that contained one or more null values. Afterwards, as labels such as ’age’ had lots of different numerical values, the amount of variance was reduced by putting them into specific Fig. 1. Proposed model ranges. Finally, all the data points were encoded into numerical form from their string from for proper classification purpose. The details of all the features and labels of the dataset is given in table number I. As it is visible from table I, there were three different types of features in the dataset and four different types of labels. There were exactly 1466 data samples after the preprocessing steps were done. The data samples were divided into approximately 80% training data and 20% testing data for supervised learning purpose. As a result, 1172 data samples went into the training set and rest went into the testing set. During learning process, we took all the five features and one of the four labels at a time for classification purpose. During training period, we also applied exhaustive gridsearch on the parameters to find the the best parameters that can provide the most accurate results for each class.

Result and analysis

After performing 10 fold cross validation on the dataset, we extracted some results for all the four predictive attributes. The accuracy measurements for methods of crimes are as follows, As we can see from the figure 2, RFC achieves the best classification accuracy in case of method prediction. On the other hand, we found the lowest result from DTC. However, the results were mostly close to each other. On other hand, in figure 3, again RFC exceeds in terms of accuracy between all four algorithms. This time, KNN achieves the lowest amount of accuracy. For a prediction task of classifying between only three labels, the accuracy from the algorithms are rather low in this case. Finally, we also attempted to classify between sex and age range.

(دقت کنید که این بخش از متن، با استفاده از گوگل ترنسلیت ترجمه شده و توسط مترجمین سایت ای ترجمه، ترجمه نشده است و صرفا جهت آشنایی شما با متن میباشد.)

جزئیات و پردازش مجموعه داده


A. جزئیات مجموعه داده ما یک مجموعه داده کاملاً جدید برای تحقیق خود جمع آوری کردیم. داده ها مستقیماً از پلیس بنگلادش زیر نظر وزارت امور داخلی دولت بنگلادش جمع آوری شده است. یافتن این مجموعه داده دشوار است زیرا داده های طبقه بندی شده و پر از اطلاعات حیاتی است. اگرچه تعداد نمونه‌ها در مجموعه داده زیاد نبود، اما هنوز مقدار کمی از نمونه وجود داشت که به اندازه کافی برای خدمت به هدف ما خوب بود. پنج نوع ویژگی مختلف در مجموعه داده وجود داشت و چهار نوع مختلف برچسب مربوطه در کنار آن وجود داشت. ب. پردازش مجموعه داده ها مجموعه داده خام دارای برخی نقص ها بود، بنابراین باید از طریق برخی مراحل پیش پردازش برطرف شود. اول از همه، ردیف هایی که حداقل یک مقدار خالی دارند باید مراقبت می شد. از آنجایی که پیش‌بینی جنایی یک کار حیاتی است، تصمیم گرفتیم تمام ردیف‌هایی را که حاوی یک یا چند مقدار تهی هستند حذف کنیم. پس از آن، از آنجایی که برچسب‌هایی مانند «سن» دارای مقادیر عددی متفاوتی بودند، مقدار واریانس با قرار دادن آنها در شکل 1 خاص کاهش یافت. محدوده‌های مدل پیشنهادی. در نهایت، تمام نقاط داده به شکل عددی از رشته خود برای طبقه بندی مناسب کدگذاری شدند. جزئیات تمام ویژگی ها و برچسب های مجموعه داده در جدول شماره I آورده شده است. همانطور که از جدول I قابل مشاهده است، سه نوع ویژگی مختلف در مجموعه داده و چهار نوع مختلف برچسب وجود دارد. پس از انجام مراحل پیش پردازش دقیقاً 1466 نمونه داده وجود داشت. نمونه‌های داده‌ها به تقریباً 80 درصد داده‌های آموزشی و 20 درصد داده‌های آزمایشی برای هدف یادگیری تحت نظارت تقسیم شدند. در نتیجه، 1172 نمونه داده وارد مجموعه آموزشی و بقیه به مجموعه تست رفت. در طول فرآیند یادگیری، ما تمام پنج ویژگی و یکی از چهار برچسب را در یک زمان برای هدف طبقه‌بندی گرفتیم. در طول دوره آموزش، ما همچنین جستجوی شبکه ای جامع را روی پارامترها اعمال کردیم تا بهترین پارامترها را پیدا کنیم که می توانند دقیق ترین نتایج را برای هر کلاس ارائه دهند.

نتیجه و تحلیل

پس از انجام اعتبارسنجی متقاطع 10 برابری روی مجموعه داده، ما برخی از نتایج را برای هر چهار ویژگی پیش بینی استخراج کردیم. اندازه گیری های دقت برای روش های جرایم به شرح زیر است، همانطور که از شکل 2 می بینیم، RFC بهترین دقت طبقه بندی را در صورت پیش بینی روش به دست می آورد. از طرف دیگر، ما کمترین نتیجه را از DTC پیدا کردیم. با این حال، نتایج بیشتر به یکدیگر نزدیک بود. از سوی دیگر، در شکل 3، دوباره RFC از نظر دقت بین هر چهار الگوریتم بیشتر است. این بار، KNN به کمترین میزان دقت دست می یابد. برای کار پیش‌بینی طبقه‌بندی تنها بین سه برچسب، دقت الگوریتم‌ها در این مورد کم است. در نهایت، ما همچنین سعی کردیم بین جنسیت و محدوده سنی طبقه بندی کنیم.