ارائه روشی نوین برای دسته بندی متن بر اساس مدلی ترکیبی از روش k نزدیک-ترین همسایگی و الگوریتم ژنتیک
(ثبت و پذیرش در اولین کنفرانس بین المللی علوم و مهندسی کامپیوتر دانشگاه آزاد نجف آباد-نحوه ارائه: سخنرانی- کد پذیرش مقالهHN94-01440059-سیویلیکا)
علی رضا مشکات روحانی
کارشناسی ارشد کامپیوتر- نرم افزار
چکیده
دسته بندی متن یکی از کاربردهای مربوط به ابزارهای داده کاوی و تئوری یادگیری ماشین است. در حوزه مذکور با استفاده از بررسی و شمارش کلمات کلیدی استفاده شده در یک متن در مورد موضوع آن تصمیمگیری میشود. در این راستا بسیاری از تحقیقات بر روی بهبود دقت دستهبندی متون متمرکز شدهاند و در این حوزه برخی از پژوهشگران به بهبود روشهای مرسوم در ادبیات موضوع پرداختهاند تا از این طریق در عملکرد آنها بهبود ایجاد نمایند. این تحقیق با استفاده از ترکیب الگوریتم نزدیکترین همسایگان و الگوریتم ژنتیک یک روش جدید دستهبندی برای تشخیص متن توسعه داد. بدین منظور، الگوریتم ژنتیک با تعیین اوزانی برای متغیرها و همسایگان، دقت الگوریتم سنتی را بهبود میبخشد. بطور دقیقتر، الگوریتم ژنتیک در هر تکرار وزنهایی را برای همسایگان و متغیرها تولید نموده و سعی میکند تا با ایجاد تغییر بر روی این اوزان، دقت نهایی مدل را بهبود بخشد. شایان ذکر است که بدلیل پایین بودن چگالی ماتریس دادهها، برخی از دادهها و متغیرها که برای آنها کلیه مقادیر موجود برابر صفر میباشد از مجموعه حذف گردیده است. نتایج محاسباتی مشخص نمودهاند که بهترین عملکرد مدل پیشنهادی با نرخ تقاطع 6/0، نرخ جهش 8/0، تعداد 4 همسایه و با استفاده از تابع فاصلهی کسینوسی معادل %03/72 میباشد. دقت مذکور بر پایهی روش اعتبارسنجی متقاطع 10- لایه ایجاد شده است. به علاوه، مقایسات انجام شده توسط آزمون ویلکاکسون نشان میدهند که روش پیشنهادی نسبت به روش سنتی برتر بوده و در این راستا مقدار برابر صفر میباشد.
کلمات کلیدی: دستهبندی متن، یادگیری با نظارت، الگوریتم نزدیکترین همسایگان، الگوریتم ژنتیک