برای تشخیص و حذف داده های پرتیPCA ارائه نسخه مناسب تر و سریع از الگوریتم روی ماتریس های بزرگ است. به همین منظور نه هدف در این مقاله حل مشکل با استفاده از روش از طریق محاسبه صرفا بردار ویژه بلکه با محاسبه پی در پی این بردارها مبنتی بر معیار بهینگی است و همچنین فیلتر نمودن اعداد به این هدف می رسد.

این الگوریتم برای مسائلی مانند دسته سوالاتی که در آنالیز داده های اختر شناسی و همچنین داده های متنی بسیار کاربرد خواهد داشت. در این روش که در مقاله ارائه شده است حدالامکان از تکرار استفاده می شود و هیچ کدام از ماتریس های کوواریانس و همچنین ماتریس داده اصلی ذخیر نمی شوند.

برای تشخیص داده های پرت روش های مختلف دیگری ارائه شده اند که از آن جمله می توان به روش های آمار اشاره کرد که در آن بطور پیش فرض توزیعی در نظر گرفته می شود و اگر داده ها از این توزیع خارج بودند به عنوان داده های پرتی در نظر گرفته می شوند و معمولا این روش قابلیت اتکا ندارد. در روش های مبتنی بر فاصله یابی نیز فاصله بین هر داده با داده های همسایه محاسبه گردیده و اگر این فاصله از یک حد تعیین شده ای تجاور نماید داده به عنوان پرتی در نظر گرفته می شود. برای حل مشکلات اشاره شده نیز روشی به نام  روش مبتنی بر چگالی ارائه شد که در آن از توزیع و وشباهت های مجموعه داده های شبیه به هم استفاده می شود این الگوریتم با توجه به اینکه نیاز به تخمین نوع توزیع دارند بسیار زمان گیر می باشند که بهمین دلیل نیز گسترش های مختلفی از آنها ارائه شده  می باشد که در آن باید داده های ماتریس و بردار ویژهPCA است. روش پایه مورد استفاده در این مقاله آنها و میانگین کل محاسبه گردد. اما در بسیاری از مسایل اندازه داده های بسیار زیاد است که بهمین  امکان پذیر نمی باشد. در رویکردی که د راین مقاله ارائه شده است مهم ترین PCA دلیل استفاده از فاکتور محاسبه جنس اصلی داده ها بدون نیاز به حل چندباره یافتن مقدار ویژه است. PCA بایستی برای پیدا کردن نارسایی داده ایی مساله الگوریتم عادی LOO در حالت اصلی سناریو بارها و بارها و به تعداد داده ها اجرا گردد و برای بروز رسانی ماتریس کواریانس به همان تعداد که PowerMethod گفته شده بروز رسانی نیاز می باشد. برای حل این مشکل نیز الگوریتم ارائه شده است.

 

منبع:

Anomaly Detection via Online Oversampling Principal Component Analysis

مطالب مشابه

ذخيره كردن و بازيابي داده ها

در صورتي كه بخواهيد كليه متغيرهاي موجود در محيط كا

کتاب های الکترونیکی-سری اول

  سری اول  کتاب های الکترونیکی آموزش فارسی نرم اف

کتاب آموزش شبیه سازی و مدل ساز

  مشخصات: مولف: دکتر نیکوبین (استاد دانشکده مکان

تنظيم خروجيها روي صفحه نمايش ب

اگر مقدار يك متغير را بخواهيد بدانيد مي توانيد آن

ضرب و تقسيم چند جمله ايها

براي ضرب و تقسيم چند جمله ايها مي توانيد توابع dec

کتاب های الکترونیک - روشهای طی

این کتاب شامل مباحث پیشرفته ریاضیات شامل روشهای

نوشتن دیدگاه


تصویر امنیتی
تصویر امنیتی جدید