پیاده سازی الگوریتم انتخاب منفی با استفاده از الگوریتم رقابت استعماری برای تشخیص اسپم - سایت تخصصی MATLAB

پیاده سازی الگوریتم انتخاب منفی با استفاده از الگوریتم رقابت استعماری برای تشخیص اسپم

o117
در این مستند، یک رویکرد جدید پیشنهاد شده است که از ایمنی مصنوعی الهام گرفته شده است؛ که آن الگوریتم انتخاب منفی (NSA) با پشتیبانی الگوریتم رقابت استعماری (ICA) است که الگ ...ادامه توضیحات
  • توضیحات
  • نظرات
  • ارسال نظر

در این مستند، یک رویکرد جدید پیشنهاد شده است که از ایمنی مصنوعی الهام گرفته شده است؛ که آن الگوریتم انتخاب منفی (NSA) با پشتیبانی الگوریتم رقابت استعماری (ICA) است که الگوریتم انتخاب منفی استاندارد را به منظور تولید نتایج با دقت بیش‌تر اصلاح می‌کند.

الگوریتم انتخاب منفی با موفقیت برای یک محدوده وسیع از کاربردها در ساختار سیستم‌های ایمنی مصنوعی استفاده شده است (Balthrop). الگوریتم استاندارد توسط Forrest and Perelson (1994) پیشنهاد شد. الگوریتم بیان داده‌ها، فاز آموزشی، و فاز آزمایش را دربرمی‌گیرد. در فاز بیان داده‌ها، داده‌ها در یک شکل مقدار واقعی یا دوگانه بیان می‌شوند. فاز آموزشی الگوریتم یا فاز تولید آشکارساز به صورت تصادفی آشکارسازها را با داده‌های مقدار واقعی یا دوگانه تولید می‌کند که برای آموزش الگوریتم متعاقبا استفاده می‌شود (Wang and Zhao, 2008)؛ در حالی که فاز آزمایش الگوریتم آموزش یافته را بررسی می‌کند. تولید تصادفی آشکارسازها به وسیله یک الگوریتم انتخاب منفی آنالیز داده‌های مورد نیاز برای آموزش الگوریتم را غیره ممکن می‌کند.

مند.بیان میاز آموزشی و آزمایش یتم را غیره ممکن میی آنالیز دادهرسازها با دادهادوشمند دقیق برای استفاده در دسته فردی ئر مقابل معایمفهوم اصلی NSA به مفهوم تولید یک مجموعه از آشکارسازهای کاندید، C، آن چنان که  و ، که  یک آشماساز است،  یک نمونه است و  تابع تطبیق نزدیک است.

NSA اساسی یک قانون رقم دودوئی پیوسته-r (RCBITS) در ارتباط با یک آستانه نزدیک سراسری را استفاده می‌کند، r برای هر آشکارساز در یک جمعیت آشکارسازها، C است. بررسی آستانه همسایگی به وسیله سعی و خطا است (Forrest and Perelson, 1994) است زیرا مقدار آستانه که بهترین عملکرد را می‌دهد به عنوان آستانه نزدیک هدف انتخاب می‌شود. محققین AIS نشان داده‌اند که فاصله تطبیق نزدیک مهم است و تاثیر بر روی عملکرد NSA دارد (Balthrop et al. 2002Y; Gonzalehz and Gomez).

مجموعه داده‌های پیشنهاد شده برای تحقیق مقدار واقعی است. مقادیر واقعی الگوریتم انتخاب منفی به شکل مقادیر واقعی برای دسته‌بندی غیره-اسپم و اسپم کد می شوند. در مورد مقدار واقعی، نیاز به تعریف فضای غیره-اسپم و اسپم می‌باشد. فضای غیره-اسپم حالت معمول یک سیستم است در حالی که فضای اسپم حالت غیرعادی یک سیستم است. آشکارساز کاندید به صورت تصادفی تولید و سپس با نمونه‌های غیره-اسپم مقایسه شده است. آشکارسازهای کاندید که با هیچ یک از نمونه‌های مجموعه‌ غیره-اسپم مطابقت ندارد به صورت آشکارسازهای متغیر پذیرفته می‌شوند. آشکارسازهای کاندید که با نمونه‌های غیره-اسپم مطابقت دارند به صورت آشکارسازهای نامطلوب کنار گذاشته می‌شوند. تولید آشکارسازها تا زمان رسیدن پوشش مورد نیاز فضای اسپم ادامه می‌یابد. بعد از تولید آشکارسازها در فشای اسپم، آشکارسازهای تولید شده می‌توانند وضعیت سیستم را کنترل کنند. اگر برخی از نمونه‌های جدید دیگر (آزمایش) حداقل با یکی از آشکارسازها در سیستم مطابقت داشت، فرض می‌شود که اسپم باشد که برای سیستم غیرعادی است اما اگر نمونه‌های جدید (آزمایش) با هیچ یک از شناساگرهای تولید شده در فضای اسپم تطبیق نداشت، فرض می‌شود که غیره-اسپم است.

الگوریتم رقابت استعماری برای تولید آشکارساز، بجای تولید تصادفی مرسوم آشکارسازها استفاده می‌شود. الگوریتم رقابت استعماری برای تولید آشکارسازها یکی پس از دیگری به منظور ایجاد بهترین ادغام انجام می‌شود. هر آشکارساز تولید شده تنها به پوشش فاصله کوتاه برای دستیابی به پوشش در فضای اسپم نیاز دارد. آن فاز تولید آشکارساز الگوریتم انتخاب منفی مقدار واقعی را با استفاده از ICA در تولید آشکارسازها را نشان می‌دهد.

پارامترهای تولید آشکارساز و انجام آن (عامل جهش F برابر شماره تصادفی بین  0.5 تا 17 است؛ نرخ تقاطع C برابر شماره تصادفی بین 1 و 0 است) توسط الگوریتم رقابت استعماری تعیین می گردند.

اجرای الگوریتم رقابت استعماری فاز آشکارساز مولد NSA  را بهبود می دهد در حالی که فاکتور داده پرت محلی (LOF) به عنوان تابع  برازندگی برای به حداکثر رساندن فاصله آشکار ساز ایجاد شده استفاده می شود و فاصله بین همپوشانی آشکارسازها به عنوان تابع برازندگی برای حل و فصل همپوشانی بین دو آشکارساز محاسبه می شود.

مجموعه داده­ی مورد استفاده Spam base[1] است. در این مجموعه داده 4601 پیام وجود دارد که  1813 (39٪) پیام از پیام­ها برای پیام­های اسپم علامت­گذاری شده­ و 2788 (61٪) پیام به عنوان غیر اسپم شناسایی شده هستند و توسط هاپکینز و همکارانش بدست آمده است (1999). این مجموعه داده دارای 57 ویژگی می باشد که 48 ویژگی آن توسط کلمات تولید شده از پیام اصلی با عدم وجود فهرست توقف و یا ریشه­یابی است. 6 ویژگی درصد ظهور کاراکترهای خاص “ ;”, “( ”, “ [ ”, “! ”, “$” و “ #” است.  3ویژگی دیگر نشان­ دهنده معیارهای مختلف بروز حروفی است که در متن پیام موجود است. در نهایت، برچسب کلاس در مجموعه، یک نمونه اسپم و یا غیر اسپم را با نمایندگان 1 و 0 نشان می­دهد.

اهداف مهندسی مورد نیاز در الگوریتم انتخاب منفی هیبرید می‌تواند در سه روش‌ بررسی شود: اول، تهیه یک آشکارساز مناسب است. دوم، محدود کردن تعداد آشکارسازها است که می‌تواند تولید شود، سوم، حداکثر کردن فاصله دستگاه آشکارساز تا حد ممکن می‌باشد.

مسائلی که در این کار تحقیقی به دقت نیاز دارند موارد زیر هستند:

  • تولید آشکارسازها در فضای هرزنامه؛
  • به حداکثر رساندن فاصله بین آشکارسازهای هرزنامه و فضای غیره-هرزنامه
  • حل مسئله هم‌پوشانی آشکارسازها در فضای هرزنامه.

این مسائل به وسیله انجام الگوریتم رقابت استعماری برای تولید آشکارسازها، کاربرد عامل بیرون محلی مانند تابع تناسب برای به حداکثر رساندن فاصله بین آشکارساز تولید شده در فضای هرزنامه و فضای غیره-هرزنامه، محاسبه حداقل و حداکثر فاصله بین دو آشکارساز هم‌پوشانی شده مانند تابع تناسب حل می‌شوند. عملکرد NSA به وسیله تولید آشکارساز و چگونگی توانایی بکارگیری فضای پوشش آشکارساز هرزنامه و غیره-هرزنامه بررسی می‌شود.

در این پژوهش از الگوریتم رقابت استعماری برای انتخاب محلی آشکارسازهایی که در فاز تولید آشکارساز NSA تولید می‌کند استفاده می‌گردد و الگوریتم NSA اصلاح شده‌ای ایجاد می‌گردد. آشکارسازهایی را که الگوریتم رقابت استعماری در فاز تولید آشکارساز NSA تولید می‌کند، کارایی NSA را بهبود خواهد داد. با توجه به اینکه الگوریتم رقابت استعماری دارای قدرت سریع همگرایی می باشد می تواند دقت و سرعت بالاتری را نسبت به NSA ایجاد نماید. در الگوریتم پایه انتخاب منفی دقت حدود 65 درصد می‌باشد که با الگوریتم رقابت استعماری این بهبود داده خواهد شد و دقت بالاتر و درصد اشتباه کمتری بدست خواهد آمد.

 

[1]  https://archive.ics.uci.edu/ml/datasets/Spambase

 

فهرست نظرات:
هنوز هیچ نظری ارسال نشده است.
امتیاز:

درج نظر شما در مورد این محصول

نام کاربری:
منبع گزارش کد فیلم آموزشی
گزارش دارد ندارد
+
افزودن به سبد