کشف ادله جرم اخلال در خدمات سامانه‌های تحت وب ازطریق الگوریتم آنتروپی و‌ شبکه بیزین

نوع مقاله : ترویجی

نویسنده

کارشناس ارشد مهندسی فنّاوری اطلاعات دانشگاه تربیت مدرس

چکیده

زمینه و هدف: زمینه انجام این تحقیق گسترش روزافزون اقدامات منجر به اخلال در خدمات سامانه‌های تحت وب است که با نام حملات منع سرویس (حملات منع خدمت)؛ شناخته می‌شوند و ضرورت پی‌جویی جرم از‌سوی پلیس را دارند. هر اقدامی که سامانه‎های رایانه‎ای و مخابراتی را از‌کار بیندازد‌ یا کارکرد آن را مختل کند از مصادیق جرایم سایبری می‌باشد و نیاز است تا ضابط قضایی با مستند‌سازی و تحلیل مدارک، ادله جرم را به مرجع قضایی ارائه نماید. شناخت روش‌های بهینه جمع‌آوری، تحلیل، بررسی و در‌نهایت کشف ادله جرم‌های منجر به اخلال در فعالیت‌های وب(حملات منع خدمت) از هدف‌های این تحقیق محسوب می‌شود.
روش‌شناسی: این تحقیق از حیث هدف کاربردی، از لحاظ روش کیفی و با بهره‌گیری از وب‌گاه‌ها و اسناد کتابخانه‌ای به صورت میدانی انجام گرفته است. برای این‌کار پس از ایجاد ترافیک مصنوعی بر روی یک وب‌سایت‌(وب‌گاه) در محیط آزمایشگاهی، روش‌های مختلف دسته‌بندی در حوزه ‌یادگیری ماشین مورد ارزیابی قرار گرفت و در‌نهایت، با‌توجه به کیفیت و دقت الگوریتم‌های مختلف، ترکیب الگوریتم شبکه‌«بیزین و آنتروپی» انتخاب گردید.
یافته‌ها و نتیجه‌گیری: در این تحقیق الگوی پیشنهادی بر روی مجموعه داده استاندارد (EPA-HTTP)؛ پیاده‌سازی و نتایج آن با سایر روش‌ها مقایسه گردید که بیانگر عملکرد بهتر می‌باشد.
 

تازه های تحقیق

=

کلیدواژه‌ها


مقدمه

ازلحاظ تاریخی، بر اثر مجموعه‌ای ‌از حملات منع خدمت ‌که در ماه فوریه سال 2000 علیه تارنما‌های «یاهو، آمازون و ای. بی[1]»؛رخ‌داده منجر ‌به از‌دست‌دادن تقریباً 1.2‌بیلیون‌دلار شده است. تحلیل‌گران تخمین زدند در طول ‌سه‌ساعت که تارنمای یاهو مختل شده بود، حدود 500000 دلار ازدست ‌رفته‌ است. بر‌اساس گزارش تارنمای آمازون، حملات منع خدمت، علت از‌دست‌دادن 600000 دلار در طول‌ 10 ساعت خرابی بوده است. به‌همین‌ترتیب، طی حملات منع خدمت علیه تارنمای‌«ای. بی»؛ در‌ دسترس بودن این سایت یا تارنما از 100٪ به9.4٪ تنزل یافته بود. در ژانویه 2001، مایکروسافت در طول یک‌دوره چندروزه حمله منع سرویس(حمله منع خدمت)؛ در تارنمای خود حدود 500‌میلیون‌دلار را از ‌دست داد. در سال 2011، حملات منع خدمت پنج وب‌گاه با رده‌ بالا، یعنی ویزا[2]، مسترکارت[3]، سونی[4]، وردپرس[5]و سازمان سیا را ویران کرد. امروزه، حملات منع خدمت قادر به تخریب قوی تارنماها در یک حمله ساده هستند.

بر طبق برآوردها انتظار می‌رود که هزینه‌های قطع ناگهانی 24‌ساعته برای یک شرکت تجارت الکترونیک بزرگ‌(30‌میلیون‌دلار)؛ باشد. یکی از راه‌کارهای حفظ امنیت و پایداری وبگاه‌ها و کاهش خسارات مالی و فنی، تحلیل مستمر ترافیک وب می‌باشد. ترافیک وب مجموعه درخواست‌ها و پاسخ‌های یک وب است که در وب‌سرور ثبت و ذخیره می‌گردد. تحلیل ترافیک این لایه که تحت ‌عنوان رخداد یا لاگ در وب‌سرور ثبت می‌شود، می‌تواند منجر به شناسایی حملات صورت گرفته به وب‌سرور باشد که به‌واسطه نوع ساختار آن در لایه‌های دیگر مثل لایه سه و چهار شناخته ‌نشده است.

از‌آنجا‌‌که حملات منع خدمت ساده و توزیع شده برای اخلال و متوقف کردن داده‌ها و خدمات یک تارنما استفاده می‌شود، برابر بند 9 قانون جرایم سایبری مصوب مجلس شورای اسلامی، مصداق ارتکاب جرایم سایبری می‌باشد. برابر این بند هر کس به‌طور غیرمجاز با اعمالی از قبیل وارد‌کردن، انتقال‌دادن، پخش، حذف‌کردن، متوقف‌کردن، دست‌کاری یا تخریب داده‎ها یا امواج الکترومغناطیسی یا نوری، سامانه‎های رایانه‎ای یا مخابراتی دیگری را از کار بیندازد یا کارکرد آنها را مختل کند، به حبس از شش‌ماه تا دوسال یا جزای نقدی یا هردو مجازات محکوم خواهد شد.‌(قانون جرایم سایبری، 1389). این تحقیق در نظر دارد روش بهینه کشف ادله جرم از طریق تحلیل ترافیک وب‌گاه‌ها را با استفاده الگوریتم‌های یادگیری ماشین بیان نماید.

سؤال‌های تحقیق: سؤال اصلی: روش‌های بهینه جمع‌‌‌آوری، تحلیل، بررسی و در نهایت کشف ادله جرم‌های منجر به اخلال در فعالیت‌های وب(حملات منع خدمت)؛ چگونه است؟

سؤال‌های فرعی

1- حملات مربوط به وب‌سایت‌ها که منجر به اخلال در خدمات می‌شوند کدامند؟

2- داده‌های مورد نیاز برای تحلیل و کشف ادله جرایم حملات منع خدمت وب کدام‌اند؟

3-روش‌ بهینه یادگیری ماشین برای شناسایی و دسته‌بندی حملات منع وب کدام است؟

تعاریف و مفاهیم: جرایم سایبری: در اصطلاح به جرایمی گفته می‌شود که در محیطی غیر فیزیکی علیه فناوری اطلاعات با حالات شبیه‌سازی و مجازی‌سازی ارتکاب می‌یابند. حملات سایبری مثالی از جرایم سایبری است‌(باستانی، 1383).‌ محور‌های جرایم سایبری به شرح شکل 1 است (قانون جرایم سایبری، 1389). حملات منع خدمت از مصادیق بند 9 محور تخریب و اخلال در داده‎ها یا سامانه‎های رایانه‎ای و مخابراتی هستند(شیرزاد،1388).

 

شکل‌1: تقسیم‌بندی جرایم سایبری

 

وب‌سرورها: وب‌سرورها محل ثبت رخداد و شواهد و مدارک ‌لازم برای استناد‌پذیری جرایم سایبری می‌باشند و برای رسیدگی به جرایم مرتبط وب، می‌بایستی به وب‌سرورها رجوع کرد(توکلی،92). وب‌سرور سامانه‌ای است که تارنما‌ها بر روی آن قرارگرفته و توانایی پاسخ‌گویی به مرورگر وب و ارسال صفحه درخواستی مرورگر را دارا است. صفحات وب بر‌پایه یک ساختار مشخص و با یک نام یگانه یا (آی. پی)؛ بر روی وب‌سرور قرار می‌گیرند. بر روی یک وب‌سرور امکان قرار گرفتن صفحات متعدد و با ساختارهای جداگانه وجود دارد. تابع اولیه یک وب‌سرور ارائه صفحات وب به کاربران است. از انواع وب‌سرورهای اینترنتی می‌توان ‌به‌(آپاچی و[6]آی.آی اس[7])؛ اشاره کرد.

وب‌سرور آی.آی.اس[8]: این وب‌سرور را شرکت مایکروسافت ارائه نموده است. در واقع این وب‌سرور مجموعه‌ای از خدمت‌های اینترنتی است که به‌صورت یک‌جا نمایش داده ‌شده است و طبق آخرین آمار منتشر شده بعد از وب‌سرور، آپاچی بیشترین محبوبیت را بین کاربران داشته است و هم‌اکنون نزدیک به 28% بازار وب‌سرورهای جهان را در اختیار دارد. این وب‌سرور تنها در ساختار مایکروسافت ویندوز قابل ‌ارائه می‌باشد و در پلت‌فرم‌های دیگر کار نمی‌کند. برای اولین‌بار مایکروسافت این وب‌سرور را در یک پروژه آکادمیک در دانشگاه اسکاتلند به‌صورت مجانی عرضه کرد. سپس برای اولین‌بار از آن در ویندوز ان.تی[9] استفاده کرد و قابلیت صفحه‌های فعال کارساز[10] را به آن افزود. بعدها با تکامل نسخه‌های ویندوز(IIS)؛ هم تکامل پیدا کرد و در نسخه شماره 6 مایکروسافت پشتیبانی از آی.‌پی نسخه 6[11] را نیز به آن اضافه کرد. این وب‌سرور در حال حاضر 28 درصد آمار جهانی را به خود اختصاص داده است ‌(www.iis.net).

وب‌سرور ‌آپاچی[12]: این نرم‌افزار وب‌سرور در توسعه و همگانی شدن وب جهانی نقش بسیار مهمی داشته ‌است. این وب‌سرور به زبان C نوشته‌ شده ‌است و دارای قابلیت سازگار با سیستم‌عامل‌های مختلف[13] بوده و بر روی ماشین‌های مختلف قابل‌ اجرا می‌باشد. یکی از دلایل انتخاب نام آپاچی برای این وب‌سرور را به‌‌خاطر احترام به یکی از قبایل قدیمی بومی آمریکا که به‌دلیل مقاومت و مهارت در ساخت ابزارآلات جنگی مشهور می‌باشند، ذکر نموده‌اند. این وب‌سرور از سال 1996 به‌عنوان محبوب‌ترین وب‌سرور برای(HTTP) در وب جهانی شناخته‌شده بود، ولی در سال 2005 میدان مبارزه را به(IIS) مایکروسافت واگذار کرد و در‌حال‌حاضر نزدیک به 40‌% بازار وب‌سرورهای جهان را به خود اختصاص داده‌ است. آپاچی برای میزبانی هر دو نوع «وب ایستا و وب پویا»؛ مناسب است.

وب‌گاه‌ها و جرایم سایبری: تاکنون بیش از یک‌میلیارد وب‌گاه اینترنتی در دنیا با کارکردهای سیاسی، اقتصادی، امنیتی و جاسوسی و... راه‌اندازی شده است‌(تارنمای اینترنتی livestate.com). سهم جمهوری اسلامی ایران از این حجم تارنما در دنیا کمتر از یک‌میلیون تارنما با کارکردهای مختلف است که کمتر از 5 صدم درصد می‌باشد‌(سایت nic.ir). بدون شک مهاجمان[14]، مسیرها و روش‌های مختلفی را به‌کار می‌گیرند تا از طریق وب‌گاه‌ها و برنامه‌های کاربردی تحت وب، به کشورها، سازمان‌ها ‌یا کسب‌وکارها آسیب وارد کنند. هریک از این مسیرها نشان‌دهنده خطر بزرگی است که می‌تواند دلیل کافی برای توجه ویژه به آن باشد‌(دوست محمدیان، 1389). شکل‌2 وضعیت فعالیت حملات پرکاربرد به وبگاه‌ها توسط مهاجمان را نشان می‌دهد‌(گزارش سایت امنیتی imperva.com).

 

شکل 2: حملات پرکاربرد وب

 

بررسی حملات وجرایم وبگاه‌ها: حملات نوع خاصی وجود دارند که به‌«حملات نرم‌افزارهای کاربردی وب[15] ‌یا لایه هفت شبکه»؛ مشهور هستند. لایه هفتم یا لایه کاربردی رابط بین کاربر و سامانه‌عامل(سیستم عامل)؛ محسوب می‌شود و همان‌طور که از اسمش پیداست، می‌توان به‌وسیله این لایه با نرم‌افزارهای کاربردی ارتباط برقرار کرد. برای مثال وقتی از نرم‌افزاراینترنت اکسپلورر[16] برای ارسال درخواست باز کردن صفحه وبی مانند گوگل استفاده می‌شود، در حقیقت از پروتکل(HTTP) برای ارسال درخواست توسط این نرم‌افزار استفاده می‌شود که همه این‌ها در لایه هفتم از مدل (OSI)‌(شکل3) فعالیت می‌کنند.‌(دولت آبادی،1393).

 

شکل‌3- حملات وب[17] در مدل (OSI)

این‌گونه حملات با‌توجه به گسترش روزافزون وب‌سایت‌ها و نرم‌افزارهای تحت وب به‌صورت فزآینده‌ای در حال زیاد شدن هستند.

کشف ادله جرم با تحلیل ترافیک وب‌سرورها: برای بررسی حملات وب می‌توان از لاگ‌های شبکه، لاگ‌های وب‌سرور و... استفاده کرد. از‌آنجا‌که هدف اصلی این پژوهش درباره لاگ‌ها‌ی وب و به‌طور ویژه وب‌سرور می‌باشد، نیاز است تا فرآیند مربوط به وب مورد توجه قرار گیرد. شکل‌4 فرآیند کامل و 3‌لایه یک وب را نمایش می‌دهد.

 

شکل‌4- فرآیند کاری یک وب

 

 

 

 

 

 

 

 

HTTP
Request

HTTP Response

Internet / Intranet

Web Server

(presentation)

App Server

(business logic)

Database

(resource)

 

 

کلیه فعالیت‌های صورت‌پذیرفته در این فرآیند در فایل‌هایی همچون‌Access Log)، Error Log (؛ در سمت سرور و فایل‌های کوکی در سمت کاربر ذخیره و نگهداری می‌گردد.

 

Access Log

Error Log


شکل‌5- محل ثبت رخدادهای وب

 

فایل‌(Access‌Log)‌؛ در وب‌سرور آپاچی برای ثبت رخدادهای وب‌سرور می‌باشد‌(در وب‌سرور IIS می‌توان اطلاعات فوق را در مسیر مشخص[18]مشاهده نمود). محتوای این فایل به‌صورت متنی ذخیره‌شده و نیاز است برای قالب‌بندی و ایجاد ساختار فیلدها، محتوا در قالب فایل‌های(CSV) خوانده‌شده و در مرحله بعد با تفکیک فیلدهای اطلاعاتی، پیش‌پردازش اطلاعات انجام ‌شود. حجم رخدادهای ثبت‌شده با توجه به کارکرد سایت متغیر می‌باشد‌( Johnson‌Sing,2016).

داده‌های یک رخداد وب‌گاه‌(وب‌سایت): پیش‌از‌آنکه به انواع این‌گونه داده‌ها بپردازیم، ابتدا تعاریفی از فراداده‌هایی که توسط وب‌گاه تولید و استفاده می‌شوند ارائه می‌کنیم. شکل‌5 یک تراکنش(HTTP)؛ ‌را بین یک مشتری‌(HTTP)؛ و یک سرور‌(HTTP)؛ ‌نشان می‌دهد. برای سادگی فرض کنید که مشتری‌(HTTP)؛‌ یک مشتری وب است و یک سرور‌(HTTP)؛ ‌نیز یک وب‌سرور می‌باشد. یک مشتری وب که برای کاربران انسانی طراحی‌ شده است یک مرورگر وب نامیده می‌شود، مانند: فایرفاکس[19]، موزیلا[20]و اینترنت اکسپلورر[21]. از وب‌سرورها نیزمی‌توان به وب سرورهای اینترنتی به آپاچی[22]و آی.آی.اس[23]می‌توان اشاره کرد‌.‌(‌Johnson Sing,2016).

 

شکل 6- تراکنش (HTTP)‌

 

  • · در یک تراکنش‌(HTTP)‌؛ داده‌های کاربرد اساسی با متاداده‌های زیر تعریف می‌شوند:
  • · آدرس‌(IP) ‌ماشین مشتری؛
  • · شناسه کاربر در‌صورتی که فرآیند تصدیق‌(HTTP)‌؛ ‌را انجام می‌دهد؛
  • · زمانی که سرور پردازش درخواست را انجام می‌دهد؛
  • · متد‌(HTTP)‌؛‌ (GET، POST،‌...)؛
  • · (URI) درخواست؛
  • · پروتکل و نسخه‌ پروتکل مانند: (HTTP)‌؛ 1.0) HTTP 1.1 و ...(؛
  • · کد وضعیت‌(HTTP)‌؛‌ که به مشتری پس فرستاده می‌شود؛
  • · اندازه‌ پاسخ برحسب بایت؛
  • · ارجاع‌دهنده که(URI) ای است که گزارش‌های مشتری از آن ارجاع شده‌اند؛
  • · عامل کاربر که شامل اطلاعاتی است که مرورگر مشتری در مورد خود گزارش می‌کند. این اطلاعات شامل این موارد است: نام مرورگر، نسخه‌ آن و سامانه‌عاملی که مرورگر بر روی آن در حال اجراست.

داده‌کاوی[24]‌ رخداد‌های وب‌: داده‌کاوی به‌مفهوم استخراج اطلاعات نهان یا الگوها و روابط مشخص در حجم زیادی از داده‌ها در یک یا چند بانک اطلاعاتی بزرگ است. با توجه به حجم بالای رخدادهای یک وب‌سرور، از تکنیک‌های داده‌کاوی برای شناسایی و کشف الگوها استفاده می‌گردد‌(شیری،1393).

آنتروپی: آنتروپی اطلاعات که به‌نام «آنتروپی شانون» هم شناخته می‌شود‌(متأثر از نام‌Claude E. Shannon ریاضی‌دان آمریکایی)؛ حاکی از تمایل سامانه‌ها به کهولت و بی‌نظمی است‌. سامانه‌ها، بسته به مرور زمان از‌هم‌گسیخته‌ می‌شوند،‌ زیرا انرژی یا داده جدید از محیط دریافت نمی‌کنند، ولی سامانه‌های باز، آنتروپی منفی دارند، یعنی می‌توانند خود را ترمیم کرده با حفظ ساختار خود زنده بمانند و حتی با وارد‌کردن انرژی اضافی، یعنی ورود انرژی بیش از صدور آن، رشد کنند. از‌آنجا‌که حملات منع خدمت، حاکی از ایجاد یک سربار اضافی با هدف ایجاد اختلال و متوقف نمودن فعالیت‌های یک وب می‌باشد، به نوعی سامانه هدف دچار درهم ریختگی، بی‌نظمی و کهولت می‌گردد که میزان این به‌هم‌ریختگی و آشفتگی را می‌توان با محاسبه آنتروپی هر‌(IP) محاسبه نمود. برای محاسبه آنتروپی‌(IP) از فرمول زیر استفاده می‌کنیم. نتیجه آنتروپی بیانگر رفتار نرمال، غیر‌معمول و بحرانی یک‌(IP) در یک وب‌سرور‌‌ است (Subbulakshmi,2017).

 

 

فرمول‌1- محاسبه آنتروپی

واریانس: یکی از شاخص‌های پراکندگی می‌باشد که برای به‌دست آوردن آن باید ابتدا میانگین داده‌ها را به‌دست آوریم، سپس هر کدام از داده‌ها را از میانگین کم نموده سپس حاصل به‌دست آمده را‌ به‌توان‌2 می‌رسانیم‌ و در‌نهایت همه را با‌هم جمع نموده تقسیم بر تعداد داده‌ها می‌کنیم(Subbulakshmi,2017).

 

فرمول‌2- محاسبه واریانس

شبکه‌های بیزین: تئوری بیزین یکی از روش‌های آماری برای رده‌بندی به‌شمار می‌آید. در این روش کلاس‌های مختلف، هر‌کدام به شکل یک فرضیه دارای احتمال در نظر گرفته می‌شوند. هر رکورد آموزشی جدید، احتمال درست بودن فرضیه‌های پیشین را افزایش یا کاهش می‌دهد و در‌نهایت، فرضیاتی که دارای بالاترین احتمال شوند، به‌عنوان یک کلاس در نظر گرفته شده و برچسبی بر آنها زده می‌شود. این تکنیک با ترکیب تئوری بیزین و رابطه سببی بین داده‌ها، به طبقه‌بندی می‌پردازد(شیری،1393).

 

 

فرمول 2-شبکه بیزین

پیشینه پژوهش: «جانسون» در پژوهش خود،‌ ترافیک‌(HTTP) را در پنجره‌های زمانی 20 ثانیه‌ای دسته‌بندی کرده و بعد از محاسبه آنتروپی و واریانس آن حملات منع خدمت را شناسایی و از طریق یک الگوریتم ترکیبی دسته‌بندی مبتنی بر شبکه‌های عصبی مصنوعی و ژنتیک رفتارهای هنجار و ناهنجار سامانه را تعیین کرد (JohnsonSingh,2016).

  • · «آدی»‌ در پژوهش خود تجزیه ‌و تحلیل ترافیک حملات انجام‌ شده با استفاده از سه تکنیک یادگیری ماشین، یعنی، درخت تصمیم و ماشین بردار پشتیبان را پیاده‌سازی کرد‌(Adi, E,2017).
  • · در یک سازوکار تشخیصی و دفاعی یکپارچه برای ایجاد و شناسایی حملات منع سرویس با استفاده از الگوریتم‌های یادگیری ماشین‌ها مانند شبکه عصبی عقب[25]، نقشه خودسازمانده[26] و دستگاه بردار پشتیبانی[27] و شناسایی آدرس(IP) واقعی از منبع حمله تفسیر شده با استفاده از سازوکار دفاعی مبتنی بر آنتروپی ارائه داد‌ Subbulakshmi,2016)).

چارچوب پیشنهادی : در مرحله اول مدل پیشنهادی ضمن خلاصه‌سازی و تجمیع انبوه رخدادهای ثبت شده، نسبت به شناسایی‌ ناهنجاری‌ها، که بیانگر حملات مشکوک به منع سرویس می‌باشد، اقدام خواهد شد. برای این کار ابتدا با ایجاد پنجره‌های زمانی 20 ثانیه‌ای، میزان فعالیت هر آی. پی دسته‌بندی و محاسبه گردیده و سپس آنتروپی مربوط به هر آی. پی در پنجره زمانی محاسبه و از طریق واریانس آنتروپی پنجره های زمانی دارای پیوستگی تعیین و در مرحله بعد از طریق‌‌ الگوریتم‌ شبکه‌های بیزین، شبکه آموزش داده می‌شود تا پنجره‌های زمانی ناهنجار و در‌نهایت آی. پی آدرس‌هایی که منجر به حملات منع خدمت یا منع سرویس توزیع شده‌اند شناسایی، دسته‌بندی و برچسب‌گذاری شوند.

شکل‌7- مدل پیشنهادی برای شناسایی جرایم از نوع حملات منع خدمت و منع سرویس توزیع شده

 

دیتاست استاندارد برای پیاده‌سازی مدل: دیتاست‌(EPA-HTTP) مجموعه استاندارد متشکل از ثبت درخواست‌های(HTTP) در مدت‌زمانی یک‌روزه است. سرور این مجموعه در پارک تحقیقاتی مثلث[28] مستقر می‌باشد. این مجموعه داده استاندارد در اکثر مقالات علمی برای تست الگوریتم‌های پیشنهادی مورد استفاده قرارگرفته است‌(Johnson Singh,2016).

مراحل اجرا و تجزیه و تحلیل داده‌ها:  برای پیاده‌سازی مدل پیشنهادی‌(شکل‌7) از نرم‌افزار مطلب و ابزار‌های مرتبط با ماشین بردار پشتیبان در آن استفاده شده که ترتیب مراحل و نتایج آن به‌شرح زیر می‌باشد:

1-رخدادهای خام وب و پاکسازی داده‌ها: همان‌طور که قبلاً مطرح شد رخدادهای وب‌سرور در وب‌سرور آپاچی در فایل‌Access Log) (ذخیره می‌شود و برای انجام پیش‌پردازش اطلاعات، فایل مورد نظر در قالب فایل‌ (CSV)‌خوانده می‌شود و در مرحله بعد با تفکیک فیلدهای اطلاعاتی، پیش‌پردازش اطلاعات انجام می‌شود. حجم رخدادهای ثبت ‌شده با توجه به کارکرد سایت متغیرمی‌باشد.

2- ایجاد پنجره‌های زمانی:  پس از پیش‌پردازش اولیه، تجمیع داده‌ها صورت می‌پذیرد. در این مرحله می‌بایستی با توجه به حجم رخدادها و نوع فیلدهای موجود، خلاصه‌سازی و کاهش ابعاد و ایجاد فیلدهای جدید در یک محدوده زمانی خاص‌(که در اکثر مقالات، پنجره‌های زمانی به‌صورت 20‌ثانیه‌ای تشکیل شده‌اند)؛ صورت پذیرد‌ (‌Johnson Singh,2016).

 

: محدوده زمانی در نظرگرفته شده برای دسته‌بندی رخدادهای وب.

: اشاره به یک آی. پی در پنجره زمانی دارد.

: اشاره به تعداد رخدادهای وب از آی. پی X در محدوده زمانی  دارد.

 

Algorithm 1 HTTP GET Flow Count for the N Participating Clients for Every 20 s Time Window

1: Begin            2: for (Frame.Timei = strx;Frame.Timei

3: for (IPj = 1;IPj ≤N;j+ +)                       4:Compute I =(IPj&&IPdst)

5:Compute HGET = (http.request.method == GET)

6: Compute Final = I && HGET                 7: end for              8: end for            9: end

 

شکل‌8- الگوریتم ایجاد پنجره‌های زمانی و دسته‌بندی آی.‌پی‌ها ( Johnson Singh,2016)

 

 با توجه به الگوریتم ایجاد پنجره‌های زمانی و دسته‌بندی آی.‌پی‌ها، نتایج به‌شرح جدول 1 تا 5 است:

 

 

 

 

 

 

3- محاسبه آنتروپی و واریانس آنتروپی در هر پنجره و استخراج ناهنجاری‌ها:  برای محاسبه آنتروپی هر آی.‌پی در پنجره‌های زمانی از فرمول‌4 استفاده می‌کنیم:

 

 

 

فرمول‌4- وارایانس آنتروپی

نتایج آنتروپی هر آی.‌پی‌ در پنجره زمانی و محاسبه میانگین و واریانس آنتروپی‌ها در هر پنجره با استفاده از فرمول‌4 برابر جدول شکل‌6 می‌باشد.

جدول‌6- ایجاد پنجره‌های زمانی، محاسبه آنتروپی و واریانس آنتروپی

source Address

Entropy

 

First Win

Second win

Third win

Fourth win

Fifth win

Mean

Variance

Approximate

202.1.175.252

1.018

1.022

0.544

0.669

0.678

0.786

0.038687

0.039

192.120.148.227

1.006

1.014

0.521

0.657

0.663

0.772

0.040285

0.04

51.81.166.201

1.918

2.211

1.192

1.29

1.319

1.586

0.162998

0.163

192.95.27.190

0.799

0.751

0.387

0.527

0.548

0.602

0.01391

0.014

51.173.229.255

1.302

1.179

1.739

2.052

2.106

1.676

0.143426

0.143

40.75.89.172

1.032

1.038

0.585

0.738

0.745

0.828

0.031951

0.032

4- استفاده از شبکه بیزین برای کلاسه‌بندی و برچسب‌گذاری حملات:  شبکه‌های بیزین، در واقع ترکیبی از دو شاخه نظریه گراف و نظریه احتمال هستند. این شبکه‌ها اغلب نشان‌دهنده روابط علّی و معلولی میان متغیرها می‌باشند. ساختار گراف یک شبکه بیزین برای صورت‌بندی توزیع احتمال توأم متغیرهای شبکه به‌کار می‌رود. هنگامی که ساختار گراف معلوم باشد، مدل‌های احتمالی می‌توانند برای استدلال و پیش‌بینی در مورد متغیرها به‌کار روند و در‌صورت نامشخص بودن ساختار گراف، با استفاده از این مدل‌ها می‌توان به یادگیری ساختار مدل پرداخت و آنگاه استدلال و پیش‌بینی در مورد متغیرها را انجام داد. در این تحقیق ما از شبکه بیزین برای آموزش شبکه و کلاسه‌بندی حملات استفاده و در‌نهایت نتایج آن را با سایر روش‌های ارائه شده در مقالات مقایسه می‌کنیم.

 

شکل‌9- آموزش داده‌های ورودی

 

در قدم اول نیاز است ‌نمودار تأیید اعتبار برای آموزش داده‌های ورودی را بررسی کنیم. این نمودار در شکل‌9 ارائه شده است. تحلیل این نمودار بیانگر این موضوع است که بهترین عملکرد اعتبار‌سنجی، در زمان مقرر، 0.012671می‌باشد. در شکل‌9، روند اعتبارسنجی، روند آموزش و خطای تست‌(به‌ترتیب با خطوط سبز، آبی و قرمز) با افزایش دوره زمان یا حجم آموزش کاهش‌ می‌یابد.

 

شکل‌10- منحنی ROC

 نمودار مشخصه عملیاتی گیرنده[29] روشی برای بررسی کارایی دسته‌بندها می‌باشد. درواقع منحنی‌های نمودار مشخصه عملیاتی گیرنده، منحنی‌های دوبعدی هستند که در آنها نرخ تشخیص صحیح دسته مثبت[30] روی محور (Y) و به‌طور مشابه نرخ تشخیص غلط دسته منفی[31] روی محور (X) رسم می‌شوند. به‌بیان‌دیگر یک منحنی مشخصه عملیاتی گیرنده مصالحه نسبی میان سودها و هزینه‌ها را نشان می‌دهد. منحنی مشخصه عملیاتی گیرنده اجازه مقایسه تصویری مجموعه‌ای از دسته‌بندی کننده‌ها را می‌دهد، همچنین نقاط متعددی در فضای مشخصه عملیاتی گیرنده قابل‌ توجه است. نقطه پایین سمت چپ (۰,۰) استراتژی را نشان می‌دهد که در یک دسته‌بندی مثبت تولید نمی‌شود. استراتژی مخالف، که بدون شرط دسته‌بندهای مثبت تولید می‌کند، با نقطه بالا سمت راست (۱,۱) مشخص می‌شود. نقطه (۰,۱) دسته‌بندی کامل و بی‌عیب را نمایش می‌دهد. به‌طورکلی یک نقطه در فضای مشخصه عملیاتی گیرنده بهتر از دیگری است، اگر در شمال‌غربی‌تر این فضا قرارگرفته باشد. همچنین در نظر داشته باشید منحنی‌های مشخصه عملیاتی گیرنده رفتار یک دسته‌بندی کننده را بدون توجه به توزیع دسته‌ها یا هزینه خطا نشان می‌دهند، بنابراین کارایی دسته‌بندی را از این عوامل جدا می‌کنند. فقط زمانی که یک دسته‌بندی در کل فضای کارایی به‌وضوح بر دسته دیگری تسلط یابد، می‌توان گفت که بهتر از دیگری است.

 

شکل‌11- ماتریس درهم‌ریختگی

 

5- ماتریس در‌‌هم‌‌ریختگی[32]: به ماتریسی گفته می‌شود که در آن عملکرد الگوریتم‌های مربوط را نشان می‌دهند. معمولاً چنین نمایشی برای الگوریتم‌های یادگیری با ناظر استفاده می‌شود، اگرچه در یادگیری بدون ناظر نیز کاربرد دارد. هر ستون از ماتریس، نمونه‌ای از مقدار پیش‌بینی شده را نشان می‌دهد. در صورتی که هر سطر نمونه‌ای واقعی‌(درست) را در بر دارد (Johnson Singh,2016).

در این مرحله ما از ماتریس درهم‌ریختگی برای صحت عملکرد الگوریتم پیاده‌سازی شده برای شبکه بیزین استفاده می‌کنیم تا دقت و صحت دسته‌بندی‌ها و کلاسه‌های ایجاد شده را مشخص کنیم.

فرمول‌5- دقت و صحت(‌Johnson Singh,2016).

جدول‌7- جدول مقایسه‌ای روش پیشنهادی

Classification Model

Confusion Matrix

Accuracy

Sensitivity

Specificity

Random Forest

267(a) 4(b) 4(c) 82(d)

97.76

98.52

0.465

RBF Network

263(a) 7(b) 5(c) 82(d)

96.63

98.13

0.0787

MLP

260(a) 11(b) 6(c) 80(d)

95.23

0.9773

0.1208

روش پیشنهادی

17(a) 9(b) 0(c) 323(d)

97.88

1

0.3879

 

روش‌شناسی: این تحقیق از حیث هدف کاربردی، از لحاظ روش کیفی و با بهره‌گیری از وب‌گاه‌ها و اسناد کتابخانه‌ای به صورت میدانی انجام گرفته است. برای این‌کار پس از ایجاد ترافیک مصنوعی بر روی یک وب‌سایت‌(وب‌گاه) در محیط آزمایشگاهی، روش‌های مختلف دسته‌بندی در حوزه ‌یادگیری ماشین مورد ارزیابی قرار گرفت و در‌نهایت، با‌توجه به کیفیت و دقت الگوریتم‌های مختلف، ترکیب الگوریتم شبکه‌«بیزین و آنتروپی» انتخاب گردید.

نتیجه‌گیری و پیشنهادها

بدون شک حملات منع خدمت و به‌ویژه حملات منع خدمت توزیع‌شده، می‌توانند آسیب‌های جدّی برای یک وب‌گاه ایجاد نمایند. در این تحقیق روش ایجاد پنجره‌های زمانی، محاسبه آنتروپی هر آی‌پی در یک پنجره و سپس محاسبه واریانس آنتروپی‌ها انجام و در‌نهایت‌ الگوریتم بیزین، ‌که یکی از الگوریتم‌های یادگیری ماشین می‌باشد، آموزش داده شد تا حملات منع خدمت را دسته‌بندی نماید. صحت و دقت این الگوریتم از سه الگوریتم ‌Random Forest)،RBFNetwork، (MLP که در مقالات سنوات اخیر پیاده‌سازی شده است، بالاتر می‌باشد و به نظر دسته‌بندی بهتری برای این کار می‌باشد(نتایج مقایسه برابر جدول 7 است).

برای تحقیقات آتی پیشنهاد می‌گردد از سایر الگوریتم‌های یادگیری ترکیبی و با دیتاست‌های مختلف دیگر پیاده‌سازی، استفاده شود. موارد زیر می‌تواند مورد بررسی دقیق‌تری قرار گیرد:

1- با توجه به اینکه مرز بین حملات (FC) و DOS,DDOS) ( مشخص نیست و عدم قطعیت می‌تواند وجود داشته باشد، از روش‌های فازی برای شناسایی حملات ‌استفاده شود؛

2- الگوریتم‌های‌ ترکیبی دسته‌بندی مثل ژنتیک، تئوری بیز و... استفاده شود؛

3- لاگ وب‌گاه‌های معتبر از طریق «وایر‌شاک» و ابزارهای مشابه جمع‌آوری و الگوریتم‌های پیاده‌سازی در محیط کاملاً واقعی انجام شود؛

4- محصولات وب «فارنزیک» شرکت‌های معتبر مورد بررسی قرار گرفته و مطالعه تطبیقی صورت پذیرد.



[1]EBay.com

[2]Visa

[3]MasterCard

[4]Sony

[5]WordPress

[6] Appache Web Server

[7] Internet Information Services(IIS)

[8] IIS Web Server

[9] Windows NT

[10] Active Server Page

[11] IPV 6.0

[12] Appache

[13] Cross-platform

[14] Hacker

[15] Web Application Attacks

[16] Internet Explorer

[17] Web Application Attacks

[18]LogFiles\W3SVCx

[19]Firefox

[20]Mozilla

[21]Microsoft Internet Explorer

[22]Apache

[23]Internet Information Services (IIS)

[24]Data mining

[25]BPNN

[26]SOM

[27]ESVM

[28]Research Triangle Park

[30]True Positive Rate(TPR)

[31]False Positive Rate (FPR)

[32]-confusion matrix

##Adi, E., Baig, Z., & Hingston, P. (2017). Stealthy Denial of Service (DoS) attack modelling and detection for HTTP/2 services. Journal of Network and Computer Applications, 91, 1-13.‏##Johnson Singh, K., Thongam, K., & De, T. (2016). Entropy-Based Application Layer DDoS Attack Detection Using Artificial Neural Networks. Entropy, 18(10), 350.‏##OWASP Top 10 2017-The Ten Most Critical Web Application Security Risks.##Subbulakshmi, T. (2017). A learning-based hybrid framework for detection and defence of DDoS attacks. International Journal of Internet Protocol Technology, 10(1), 51-60.##Zargar, S.T., Joshi, J. and Tipper, D., 2013. A survey of defense mechanisms against distributed denial of service (DDoS) flooding attacks. IEEE communications surveys & tutorials, 15(4), pp.2046-2069.##‏میثم- قادریان(1387)؛ پایان‌نامه کارشناسی‌ارشد دانشگاه امیرکبیر- موضوع: بهبود مدل کاربر در وب‌سایت به‌صورت خودکار با استفاده از معناشناسی با مفاهیم خاص دامنه.##