(ثبت و پذیرش در اولین کنفرانس بین المللی علوم و مهندسی کامپیوتر دانشگاه آزاد نجف آباد-نحوه ارائه: سخنرانی- کد پذیرش مقالهHN94-01440059-سیویلیکا)

علی رضا مشکات روحانی

کارشناسی ارشد کامپیوتر- نرم افزار

چکیده

دسته­ بندی متن یکی از کاربردهای مربوط به ابزارهای داده­ کاوی و تئوری یادگیری ماشین است. در حوزه­ مذکور با استفاده از بررسی و شمارش کلمات کلیدی استفاده شده در یک متن در مورد موضوع آن تصمیم­گیری می­شود. در این راستا بسیاری از تحقیقات بر روی بهبود دقت دسته­بندی متون متمرکز شده­اند و در این حوزه برخی از پژوهشگران به بهبود روش­های مرسوم در ادبیات موضوع پرداخته­اند تا از این طریق در عملکرد آن­ها بهبود ایجاد نمایند. این تحقیق با استفاده از ترکیب الگوریتم نزدیکترین همسایگان و الگوریتم ژنتیک یک روش جدید دسته­بندی برای تشخیص متن توسعه داد. بدین منظور، الگوریتم ژنتیک با تعیین اوزانی برای متغیرها و همسایگان، دقت الگوریتم سنتی را بهبود می­بخشد. بطور دقیق­تر، الگوریتم ژنتیک در هر تکرار وزن­هایی را برای همسایگان و متغیرها تولید نموده و سعی می­کند تا با ایجاد تغییر بر روی این اوزان، دقت نهایی مدل را بهبود بخشد. شایان ذکر است که بدلیل پایین بودن چگالی ماتریس داده­ها، برخی از داده­ها و متغیرها که برای آن­ها کلیه­ مقادیر موجود برابر صفر می­باشد از مجموعه حذف گردیده است. نتایج محاسباتی مشخص نموده­اند که بهترین عملکرد مدل پیشنهادی با نرخ تقاطع 6/0، نرخ جهش 8/0، تعداد 4 همسایه و با استفاده از تابع فاصله­ی کسینوسی معادل %03/72 می­باشد. دقت مذکور بر پایه­ی روش اعتبارسنجی متقاطع 10- لایه ایجاد شده است. به علاوه، مقایسات انجام شده توسط آزمون ویلکاکسون نشان می­دهند که روش پیشنهادی نسبت به روش سنتی برتر بوده و در این راستا مقدار  برابر صفر می­باشد.

 

کلمات کلیدی: دسته­بندی متن، یادگیری با نظارت، الگوریتم نزدیک­ترین همسایگان، الگوریتم ژنتیک