بازاریابی اینترنتی محتوای وب سایت

بازاریابی هوشمند اینترنتی با استفاده از محتوای وب سایت و وب کاوی

بازاریابی هوشمند اینترنتی با استفاده از محتوای وب سایت و وب کاوی

چکیده مقاله:

امروزه با گسترش روز افزون استفاده از اینترنت، بازاریابی سنتی به واسطه ظرفیت‌های فنی جدید و کانال‌های فروش دیجیتالی دچار تحول شده است. بازاریابی اینترنتی انطباق و توسعه استراتژی‌های بازاریابی در محیط وب است و شامل همه عوامل مؤثر بر بهره‌وری وب سایت‌ها مانند ایده، محتوا، ساختار، روابط، اجرا، نگهداری، ارتقاء و تبلیغات می‌باشد. به واسطه ماهیت فضای سایبری اینترنت و عدم مراجعه فیزیکی مشتریان، تأمین نیازها و بالا بردن کیفیت خدمات ارائه شده مستلزم داشتن دانش دقیق از اولویت‌های مورد نظر مشتریانی است که عموماً در بسیاری از موارد علاقه‌ای به پرس و جوهای طولانی و پر کردن فرم‌ها ندارند. بنابراین مالکان سایت‌های فروش الکترونیکی مجبور هستند تا تمایلات و ترجیحات مشتریان را از فعل و انفعالات و اطلاعات ناشی از فرآیند فروش، جمع آوری نمایند و لذا اهمیت زیادی دارد که بدانند مشتریانشان به چه صورت از وب سایت‌هایشان استفاده می‌کنند. بنابراین آنها نیازمند دریافت بازخورد از آنها هستند زیرا که تداوم کسب و کار خود را در گرو تأمین نیازهای مشتریان می‌بینند. بدیهی است استنتاج نتایج مفید، مستلزم تجزیه و تحلیل عمیق داده‌ها است. استفاده از تکنیک‌های وب کاوی می‌تواند مزیت مؤثری جهت طراحی بهینه ساختار وب سایت‌های فروش و در نتیجه افزایش جذب مشتریان بالقوه و نگهداری مشتریان بالفعل باشد. در این مقاله در حوزه web usage mining با استفاده از تکنیک‌های خوشه بندی و درخت‌های تصمیم در داده کاوی، سیستمی ارائه شده است که از اطلاعات ورودی کاربران (data entry user)، اطلاعات وقایع سرور (server and cookie logs) و اطلاعات فروش (marketing and selling data)، به عنوان داده‌های ورودی جهت استخراج دانش استفاده کرده و به کمک نتایج حاصل از این آنالیز، الگویی منطقی برای طراحی بهینه ساختار وب سایت‌های فروش اینترنتی (site organization) ارائه می‌نماید. این الگو می‌تواند برای طراحان وب که در نظر دارند ساختار سایت و صفحات آن، مبتنی بر اصول صحیح بازاریابی باشد مورد استفاده قرار گیرد. در این بین نوع محتوا و تولید محتوا در حوزه بازاریابی اینترنتی دارای اهمیت بسیاری است که وب سایت های اینترنتی مطرح مانند ORDSITE، خدمات ساخت و تولید محتوای خوبی مبتنی بر SEO و بصورت بهینه سازی شده ارائه میدهند. در گروه تولید محتوای اردسایت تعرفه، قیمت و هزینه خدمات تولید محتوا بصورت شفاف ذکر شده است.

واژه‌های کلیدی: تجارت الکترونیک (E – Commerce)، وب کاوی (Web Mining)، خوشه بندی (Clustering)

زمانی، ک.، مؤمنی، ح. و اکبریان، ر.، ۱۳۸۹، بازاریابی هوشمند اینترنتی با استفاده از وب کاوی (Web Mining)، اولین کنفرانس سالانه مدیریت، نوآوری و کارآفرینی (۲۷ و ۲۸ بهمن ۸۹- شیراز)

۱- مقدمه:

وب و وب سایت اینترنتی منبع عظیمی از محتوا و اطلاعات است که روز به روز بر حجم آن افزوده می شود. در حال حاضر میلیاردها صفحه که اطلاعات فراوانی از موضوعات مختلف را در بردارند، بر روی سرویس دهنده های مختلف جا خوش کرده اند. این در حالیست که تولد سایتهای جدید و گسترش سایتهای موجود نیز به طور فزاینده ای به این حجم اطلاعات می افزاید. نرخ رشد اطلاعات تا بدان جاست که امروزه مشکل دسترسی به اطلاعات جدی تر از نبود اطلاعات بوده است. امروزه چالش عمده اکثر کاربران دستیابی به اطلاعات مورد نیاز خود است. هر چه بر محبوبیت وب سایت ها و اینترنت افزوده می گردد، بخصوص در مواردی که روش های ساخت و تولید محتوای اینترنتی مورد نیاز کاربر در آن بخوبی تولید شده باشد، نیاز به بایگانی هوشمند اطلاعات آن نیز بیشتر احساس می شود. در این وادی دغدغه اصلی مدیران فروشگاه های اینترنتی فراهم کردن بستری برای ایجاد سهولت دسترسی کاربران به صفحات وب سایت جهت نیل به هدف جذب رضایت مشتری می‌باشد.

با افزایش تکنولوژی فناوری اطلاعات، ردیابی، تجزیه و تحلیل ویژگی های کاربران وب سایت ها کمک می کند تا طراحان وب سایت ها بستر را به گونه ای آماده نمایند تا کاربران اطلاعات مورد نیاز خود را به سهولت بیابند. وب کاوی از تکنولوژی داده کاوی استفاده می کند و الگوهای بالقوه مفید و اطلاعات پنهان را از میان اسناد و فعالیت های کاربران در وب بدست می آورد. وب کاوی محتوای صفحات وب، اطلاعات کاربران و لینک های مابین صفحات و منابع وب را شامل می شود. ویژگی های ذاتی مابین داده‌ها از طریق inductive learning machine learning و روش های تجزیه و تحلیل آماری و امثال این گونه روشها بدست می آید و سپس با استفاده از تکنولوژی داده کاوی الگوهای مفید بالقوه و جالب و اطلاعات ضمنی بدست می آید و قوانین و دانش هایی با سطح بالا برای کاربران استخراج می گردد (چان و همکاران).

امروزه فضای تجارت الکترونیک به صورت فزاینده ای تبدیل به یک فضای رقابتی شده است بنابراین وظیفه اصلی و اولیه بازاریابی الکترونیکی راضی نگهداشتن مشتری، حفظ مشتریان قدیمی و جذب مشتریان بیشتر است. این مهم نیازمند آن است که وب سایت‌های تجارت الکترونیک به سرعت و با دقت اطلاعات مورد نیاز مشتریان را بیایند، خدمات متفاوت برای مشتریان مختلف ارائه دهند و این قابلیت را برای مشتریان ایجاد کنند تا آنها صفحات را بر اساس نیازشان سفارشی نمایند. در بازاریابی الکترونیکی وب کاوی داده‌های مصرفی تعداد زیادی از مشتریان را تجزیه و تحلیل می کند و می‌تواند در کشف ارتباط ذاتی مابین داده‌ها به منظور پاسخ به موقع با نیازهای مشتریان و پیش بینی برای آینده به بازاریابان کمک کند (چان و همکاران).

عمق کاوی امیال مشتریان، توزیع گروه های مشتریان، تجزیه و تحلیل توزیع مناسب و خصوصیات بخش های بازار تجت این شرایط می‌تواند توسعه مؤثری برای برنامه های بازاریابی باشد و شرایط بازار را تجزیه و تحلیل کند، استراتژی‌های بازاریابی را تخمین بزند حتی می‌تواند بی ثباتی قیمت رقبا را بررسی کند و در نهایت یک موقعیت قابل توسعه را برای شرکت فراهم کند (چان و همکاران).

زمانی که یک وب سایت طراحی می شود داشتن درک روشن و واضحی از پروفایل کاربران و اهداف سایت کافی به نظر نمیرسد. لازم است که طراحان سایت دانش اثبات شده ای از روشهایی که کاربران برای بازدید از صفحات انتخاب می‌کنند نیز داشته باشند. تجزیه و تحلیل رفتار بازدید کنندگان سایت ابزار قدرتمندی است که می توان از آن برای جمع آوری نکات ارزشمند در مورد اندازه گیری موفقیت یک وب سایت در رسیدن به اهداف مورد انتظار استفاده نمود. اینگونه تجزیه و تحلیل ها شامل بررسی و تفسیر اطلاعات ذخیره شده در Web server log به منظور یافتن الگوهای پنهان، نهان و ناشناخته از طریق استفاده از تکنیک ها و ابزارهای داده کاوی و کشف دانش می‌باشد (روبرت).

درک رفتار مشتری در شبکه جهانی وب کاملا ضروری برای موفقیت کسب و کار است. با استفاده از این روش بازاریابان قادر خواهند بود به نیازهای مصرف کنندگان سر وقت پاسخ دهند (کارنیرو، ۲۰۰۹).

٢- وب کاوی

وب کاوی به معنای کاوش و استخراج اطلاعات در شبکه جهانی وب، جمع آوری هوش با استفاده از تکنیک‌های داده کاوی در صفحات موجود در دسترسی در وب یا access logs های سرور. به عبارت دیگر وب کاوی کاربردی از تکنیکهای داده کاوی است که به صورت خودکار اطلاعات را از مستندات وب کشف و استخراج می کند (کارنیرو، ۲۰۰۹). اهداف انجام وب کاوی به قرار زیر می‌باشد:

  • کاهش میانگین عددی صفحه های ملاقات شده بوسیله مشتری قبل از تراکنش خرید
  • افزایش میانگین عددی صفحه های دیده شده بوسیله کاربران در هر نشست
  • افزایش بازده وب سرور ها
  • شخصی سازی به صفحه وب ها برای مشتریان
  • تشخیص محصولاتی که ماهم مورد بازبینی یا خرید قرار می گیرند
  • کاهش تعداد موارد بازگشتی
  • افزایش نرخ نگهداری بازدید کننده در صفحات

۳- دسته بندی وب کاوی

وب کاوی با توجه به حوزه عملکرد می توان به سه دسته تقسیم کرد:

  • محتوا کاوی وب (Web content mining)
  • ساختار کاوی وب (Web structure mining)
  • کاربرد کاوی وب (Web usage mining) (چان و همکارانو، روبرت، زایان، ۱۹۹۹).

۳ – ۱- ساختار کاوی وب:

یک شاخه دیگر این مقوله، ساختار کاوی وب Mining Web Structure است که به کشف مدل پشت زمینه حاکم بر ساختار فرا پیوند های وب می پردازد و هدف آن، ایجاد اطلاعاتی همچون تشابه یا ارتباط بین سایت‌های مختلف وب است. در ساختار کاوی تلاش بر این است که دانش از ساختار و سازمان دهی یک وب سایت اینترنتی، توپولوژی صفحات و لینک مابین آنها بدست آید (روبرت).

۳ – ۲- محتوا کاوی وب:

محتواکاوی وب، یکی از سه شاخه وب کاوی است که در واقع، کشف اطلاعات مفید از مستندات و داده‌های ساختیافته و نیمه ساختیافته و غیر ساختیافته وب می‌باشد. محتواکاوی فعالیتی است که مستقیما مربوط به کاربران نهایی وب می شود که در تلاش برای پیدا کردن اطلاعات مربوطه را از محتویات ذخیره شده در اسناد وب می باشند (روبرت).

در زمینه محتواکاوی وب نرم افزارهای خزنده (Crawler)، به گشت و گذار در اقیانوس وب پرداخته، اقدام به نمایه سازی واژگان در پایگاه داده خود می نمایند که مورد استفاده موتورهای کاوش، در زمان جستجوهای کاربر قرار می گیرد. نمونه بارز این روش، موتور کاوشگر Google است (چاکرابتری و همکارام، ۱۹۹۹ و کین-نام. کم-هان لی، ۲۰۰۴). در همین راستا ابزارهایی همچون Finite – State Automation Text. FASTUS Understanding System، در خلال این ماموریت به تجزیه و تحلیل متون، با هدف کشف گروه های مختلف واژگان مانند اسامی، افعال، ترکیبات وصفی و اضافی،… می پردازند که به کشف دانش از محتویات وب کمک می کند. این روش هم اکنون برای زبان های انگلیسی و ژاپنی پیاده سازی شده است و بصورت بالقوه برای دیگر زبان ها قابل استفاده است (کین-نام. کم-هان لی، ۲۰۰۴ و فییو، ۲۰۰۱).

۳ – ۳ – کاربرد کاوی وب:

کاوش استفاده از وب به استخراج الگوهایی با معنی از داده‌های تولید شده در تعامل بین کلاینت و سرورهای وب می پردازد. این نوع کاوش بر تکنیکهایی تمرکز دارد که رفتار کاربر را در زمان تعامل با وب پیش بینی می کند. داده ای که در این نوع کاوش مورد استفاده قرار می گیرد، داده‌هایی است که در نتیجه تعامل کاربران با وب ایجاد و نگهداری شده اند (چان و همکاران). هدف اصلی کاوش استفاده از وب، جمع آوری اطلاعات راجع به الگوهای پیمایش کاربران می‌باشد. از این اطلاعات بصورت سابقه ای در مراجعات بعدی کاربر استفاده خواهد شد (روبرت). همچنین این اطلاعات و محتوای تولید شده وب سایت می توانند برای بهبود سایت‌های وب از دید کاربران مبتنی بر تولید محتوا و SEO به کار روند کاربردهای این نوع کاوش، معمولا شامل خصوصی سازی وب، ایجاد سایت‌های وب تطبیقی، مدلسازی کاربر، … می‌باشد.

قابلیت استفاده یکی از مسائل مهم در طراحی و پیاده سازی سایت‌های وب است. نتایج به دست آمده از کاوش استفاده از وب می توانند به طراحی مناسب سایت‌های وب کمک کنند. سایت‌های وب تطبیقی یک کاربرد از این نوع کاوش می باشند. در این سایت ها محتوا و ساختار سایت وب به صورت پویا بر اساس داده‌های استخراج شده از رفتار کاربر سازماندهی مجدد می شوند (کلایپول و همکارا، ۲۰۰۱). بطور دقیقتر یکی از انواع کاربرد کاوی وب به کشف الگوهای دسترسی کاربر با استفاده از فایلهای log موجود در سرور اشاره می کند. این اطلاعات به توسعه دهندگان و طراحان وب سایت ها کمک خواهد کرد تا از اطلاعات مرتبط و مفید که به صورت پنهان در فایلهای log وب سرور جهت تشخیش الگوهای ناوبری مشتریان استفاده نمایند (روبرت).

کاربرد کاوی وب دو جنبه مختلف و مکمل دارد: از یک طرف برای تجزیه و تحلیل سیستماتیک تمایلات کاربران استفاده می شود و از سوی دیگر یک یک ابزار قدرتمند در زمینه طراحی و اصلاح ساختار وب سایت ها می‌باشد. جنبه های مختلفی برای بدست آوردن دانش و درک مورد نظر هنگام تجزیه و تحلیل سایت رفتار بازدید کنندگان یک سایت وجود دارد:

  • علاقمندی های کاربران و اطلاعاتی که به آن دسترسی پیدا کرده اند.
  • راه و روشی که این اطلاعات مورد دسترسی قرار گرفته اند. (اسپیلپولو، ۱۹۹۹ و روبرت)

اکثر فعالیتهای استفاده کاوی وب روی جنبه دوم متمرکز شده است. این فعالیتها دو دیدگاه مختلف را مورد بررسی قرار داده اند

  • چگونه طراحان انتظار دارند که سایت مورد استفاده قرار گیرد.
  • روشی که بازدید کنندگان به طور مؤثر از سایت استفاده می‌کنند (روبرت و اسپیلپولو، ۱۹۹۹).

یک نمونه از سایت‌های تجاری که از تکنیک‌های وب کاوی همچون استخراج ارتباط بین صفحات مشاهده شده توسط کاربر، تحلیل مسیر کلیک شده، … استفاده می کند، سایت Amazon است که موفقیت های چشمگیری برای آن به دنبال داشته است

۴- جمع آوری اطلاعات:

کاربردهای کاربرد کاوی وب بر اساس جمع آوری داده‌ها از سه منبع اصلی پایه ریزی شده است (فسسا و لنزی، ۲۰۰۵).

۴- ۱- وب سرورها:

سرورهای وب غنی ترین و رایج ترین منبع داده‌های استفاده از وب هستند. آنها داده‌ها را در فایل های ثبت خود و فایل های ثبت پایگاه داده‌هایی که استفاده می‌کنند، ذخیره می نمایند. این داده‌ها، معمولا شامل آدرس های IP، زمان و تاریخ دستیابی ها و … می باشند و معمولا در قالب های استاندارد مانند، Common Log Format، Extended Log Format LogML ۔ بازنمایی می شوند. یک چالش اصلی در استفاده از سرورهای وب، تشخیص نشست های کاربر (دسته بندی تقاضاهای کاربر به گونه ای که مسیر پیمایش وی در سایت مشخص شود) می‌باشد. نحوه انجام این کار به نوع داده‌هایی که در فایل های ثبت ذخیره می شود، بستگی دارد. رایج ترین روش برای تشخیص نشست های کاربر، استفاده از cookie ها می‌باشد. به غیر از فایل های ثبت، می توان از شنود بسته های TCP / IP برای ردیابی رفتار کاربران استفاده کرد. همچنین برخی از سرورهای برنامه های کاربردی، تعاملات کاربران با سرور را ردیابی کرده و آنها را در فایل های ثبت سرور نگهداری می‌کنند. به طور کلی در صورت ذخیره داده‌ها در سمت سرور، یک تصویر کلی از چگونگی استفاده شدن یک سرویس توسط تمام کاربران وجود دارد (کارنیرو، ۲۰۰۹، پیرکاس و همکاران، ۲۰۰۳).

۴ – ۲- پراکسی سرورها:

بسیاری از خدمات دهندگان سرویسهای اینترنت (ISP) خدمات پراکسی سرور را به مشتریانشان جهت بهبود سرعت ناوبری از طریق caching، ارائه می دهند. از بسیاری جهات، جمع آوری داده‌ها در سطح پروکسی اساسا همانند جمع آوری داده‌ها در سطح سرور است. تفاوت اصلی در اینجا آن است که سرورهای پراکسی داده‌های گروه هایی از کاربران را که به تعداد زیادی از سرورهای وب مراجعه می‌کنند، جمع آوری می‌کنند. در این حالت نیز تشخیص نشست های کاربران مشکل است و نمی توان کلیه مسیرهای پیمایش کاربران را تشخیص داد (کارنیرو، ۲۰۰۹ و پیرکاس و همکاران، ۲۰۰۳).

۴ – ۳- کلاینتهای وب:

اطلاعات در سمت کلاینت با استفاده از جاوا اسکریپت،applet های جاوا و یا حتی مرورگرها می توانند ردیابی شوند. این تکنیک ها مشکلات شناسایی session های کاربران و مشکلات مربوط به caching مانند استفاده از کلید بازگشت (back) را ندارد همچنین با این روش اطلاعات تفصیلی راجع به رفتار کاربر قابل دستیابی است. همچنین این امکان وجود دارد که رویدادهای متنوعی در برنامه کاربردی تعریف گردد و در صورت رخداد آنها، در فایل های ثبت، ذخیره شوند. به این ترتیب تاریخچه ای از رویدادهای مختلف تعریف شده در برنامه تولید می شود. به طور کلی در صورت ذخیره داده‌ها در سمت کاربر، یک تصویر کامل از چگونگی استفاده شدن کلیه سرویس ها توسط یک کاربر خاص ایجاد می شود اما این روش ها وابسته به همکاری کاربران است و ممکن است منجر به نقض قوانین مربوط به حفظ حریم خصوصی کاربران گردد. (پیرکاس و همکاران، ۲۰۰۳ و کارنیرو، ۲۰۰۹).

کاربرد کاوی وب شامل log های وب، اطلاعات ثبت نام و پرس وجوی کاربران، محتوای فعالیتهای تجاری و پایگاه داده‌های مبتنی بر خدمات می‌باشد و از میان آنها کاوش فایلهای log وب مهمترین است. این فایلها در وب سرورها به صورت های زیر ذخیره می شوند:

  • server logs
  • error logs
  • cookie logs. (الکس و همکاران).

۴-۳-۱- error logs:

log های خطا، اطلاعات درخواستهای شکست خورده همانند لینک های گم شده، احراز هویت هایی که با شکست مواجه شده و یا مشکلات مربوط به timeout را در خود نگهداری می‌کنند. به غیر از تشخیص لینک های اشتباه یا مشکلات ظرفیتی سرور، ثابت شده است که بیشترین استفاده از این فایل ها در عملی کردن بازاریابی هوشمند است (الکس و همکاران).

۴-۳-۲cookie logs -:

کوکی ها فایل های متنی کوچکی هستند که توسط وب سرور در سمت کلاینت (مشتری) در مدتی که کاربر با مرورگر در حال بازدید از وب سایت است تولید می شود (پرنر و فیس، ۲۰۰۲ و الکس و همکاران). کوکی ها موجب می شوند تا یک شماره شناسایی یا کد خاصی به هر کاربر اختصاص داده شود. هر بار که کاربر در حال بازدید از وب سایت است به وسیله این کد، شناسایی می شود (پرنر و فیس، ۲۰۰۲). کوکی ها توسط وب سرور تولید می شوند و در کلاینت ها نگهداری می شوند. اطلاعات ذخیره شده در Cookie log ها به بهتر شدن تراکنش های وب سرور کمک می کند. و باعث می شود تا سرور قابلیت ردیابی دسترسی کلاینت ها به صفحات وب را داشته باشد (پرنر و فیس، ۲۰۰۲ و الکس و همکاران).

۴-۳-۳- server logs:

مرور گر های وب و سرور های ارتباطی از پروتکل های http استفاده می‌کنند. هدر یک پیغام در خواست http شامل متغیرهای ارزشی است که وب سرور می‌تواند آنها را در فایل های گزارش log خود ثبت و نگهداری کنند. بنابراین فایلهای log وب شامل فیلد هایی است که درخواستهایی که مرورگرها از وب سرور می‌کنند را در خود نگهداری می‌کنند. با ترکیب اطلاعاتی که از این اطلاعات استنتاج می شوند و با در نظر گرفتن اینکه این اطلاعات چگونه مشتق می شوند، می توان به دقت عملکرد مشتری را تجزیه و تحلیل کرد (هان و کامبر، ۲۰۰۶، سارابجات و همکاران و مارک، ۲۰۰۴).

فایلهای log دو نوع فرمت مختلف دارند:

  • CLF Common Log Format
  • ECLF Extended Common Log Format (هان و کامبر، ۲۰۰۶، سارابجات و همکاران و جای جئونگ و همکاران، ۲۰۰۴).

این فرمت ها در درجه اول شامل اطلاعاتی مانند شماره نسخه تولید کننده فایل log (log generator) log و تاریخ و ساعت تولید فایل log می‌باشد (۱۵)، به صورت سنتی وب سرورها اطلاعات فعالیتهای سرور، error ها و صفحات قبلی بازدید شده رابه صورت جداگانه برای هر رویداد ذخیره می کردند اما اکنون فایلهای CLF به گونه ای هستند که log های سرور و error ها را در قالب یک فایل واحد نگهداری می‌کنند. فرمت ECLF علاوه بر اطلاعات CLF، کوکی ها و ارجاعات از صفحات دیگر را نیز ذخیره می‌نماید (هان و کامبر، ۲۰۰۶، سارابجات و همکاران). در فرمت CLF اطلاعات زیر قابل دسترسی است:

  • Date: تاریخ دسترسی به صفحه مورد نظر
  • Time: زمان دسترسی به صفحه مورد نظر
  • s – sitename: نام سرویس
  • s-sip: آدرس IP سرور
  • Cs – method: روشی که مورد استفاده قرار گرفته است GET و یا POST
  • Cs – uri – stem: نام و مسیر صفحه درخواست شده
  • cs – uri – query: پرس و جو (query) ارسال شده
  • s-port: شماره پورت سرور.
  • cs – username: نام کاربری مشتری است که مربوط به صفحاتی است که برای دسترسی کاربر محدود شده باشند و نیاز به نام کاربری دارند.
  • IPc: آدرس IP کلاینت
  • cs (User – Agent): فراهم کننده خدمات
  • sc – status: کد وضعیت یا حالت HTTP که به کلاینت برگردانده می شود
  • SC substatus: پروتکل subststus
  • sc – win32 – status: وضعیت win32

در فرمت ECLF که فرمت کامل تری است علاوه بر اطلاعات ذکر شده در فرمت CLF، فیلدهای زیر نیز قابل دسترسی است:

  • service name نام سرویس درخواستی
  • time taken: زمانی که صرف می شود تا یک تراکنش اتمام یابد
  • protocol version: نسخه پروتکل استفاده شده برای انتقال
  • user agent فراهم کننده خدمات
  • Cookie شناسه کوکی
  • Referrer صفحه قبلی
#Software: Microsoft Internet Information Services 6.0

#Version: 1.0

#Date: 2010-12-29 00:00:38

#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip csversion

cs(User-Agent) cs(Cookie) cs(Referer) sc-status sc-substatus sc-win32-status sc-bytes cs-bytes time-taken

۲۰۱۰-۱۲-۲۹ ۰۰:۰۰:۳۸ W3SVC1564719477 192.168.100.197 GET /robots.txt – 80 – 65.52.49.75 HTTP/1.1 Mozilla/5.0+(compatible;+bingbot/2.0;++http://www.bing.com/bingbot.htm) – – 404 0 2 1830 265 281

۲۰۱۰-۱۲-۲۹ ۰۰:۰۱:۲۱ W3SVC1564719477 192.168.100.197 GET /Default.asp – 80 – 207.46.13.134 HTTP/1.1 Mozilla/5.0+(compatible;+bingbot/2.0;++http://www.bing.com/bingbot.htm) – – 302 0 64 0 264 281

۲۰۱۰-۱۲-۲۹ ۰۰:۰۱:۲۴ W3SVC1564719477 192.168.100.197 GET /persian/index.php – 80 – 207.46.13.134 HTTP/1.1 Mozilla/5.0+(compatible;+bingbot/2.0;++http://www.bing.com/bingbot.htm) – – 200 0 0 29020 272 1671

۲۰۱۰-۱۲-۲۹ ۰۰:۰۲:۴۴ W3SVC1564719477 192.168.100.197 GET /robots.txt – 80 – 66.249.71.22 HTTP/1.1 Mozilla/5.0 +(compatible;+Googlebot/2.1; + + http://www.google.com/bot.html) – – 404 0 2 1830 250 296

۲۰۱۰-۱۲-۲۹ ۰۰:۰۲:۴۴ W3SVC1564719477 192.168.100.197 GET /news/89/28-9-89/28-9-89.htm – 80

– ۶۶.۲۴۹.۷۱.۲۲ HTTP/1.1 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html) – 304 0 0 248 300 343

جدول ۱- نمونه ای از محتوای فایل log سرور براساس فرمت ECLF

گسترش روز افزون تجارت الکترونیک و افزایش تعداد بازدید کنندگان سایت‌های فروش اینترنتی موجب افزایش حجم فایلهای log موجود در وب سرورها شده و این مسئله چالشی را از نظر حجم فضای اشغال شده توسط این فایلها در وب سرورها به وجود آورده است. بنابر این عموماً این فایلهای حجیم برای محدوده زمانی خاصی در وب سرور نگهداری می شوند.

۵- تجزیه و تحلیل فایلهای log:

Web log mining از طریق آنالیز فایلهای log وب سرورها که حاوی اطلاعات بازدید از سایت است داده‌های آماری را باجزئیات برای انجام داده کاوی روی آنها بدست می آورد و بدین ترتیب مدیران وب سایت ها دانش مفیدی را بدست می آورند. به عنوان مثال رفتار مشتریان در حین جستجو در وب سایت‌های تجاری بر اساس الگوهای دسترسی آنان قابل شناسایی است و این مهم در ارائه خدمات شخصی سازی و در نتیجه بهبود کیفیت خدمات ارائه شده برای مشتریان نقش بسزایی خواهد داشت (چان لینگ و همکاران).

 

مدل عمومی کاربرد کاوی وب
مدل عمومی کاربرد کاوی وب

شکل ۱- مدل عمومی کاربرد کاوی وب

فرآیند Web log mining می‌تواند به چند مرحله تفکیک شود

  • جمع آوری اطلاعات اصلی: تشخیص دادن و فیل .. تر کردن داده‌ها و اطلاعات مناسب که از طریق پیش پردازش (preprocessing) انجام می پذیرد.
  • پردازش داده‌ها: الگوهای مناسب و مورد نظر با استفاده از نتایج پیش پردازش مرحله قبل کشف و استخراج می گردند که این مرحله به pattern discovery معروف است.
  • داده کاوی و آنالیز الگوها: تجزیه و تحلیل الگوهای بدست آمده از مرحله قبل برای فیلتر سازی و جداکردن الگوهای مناسب و حذف الگوهای نامناسب که به آن pattern analysis می گویند. (روبرت و کولی و همکاران، ۱۹۹۹، مارکو همکاران، ۲۰۰۴).

برای پیاده سازی و انجام مراحل فوق باید به صورت زیر عمل کرد:

١. جمع آوری اطلاعات و ساختار آنها براساس فایل log وب سرور

۲. برای پیش پردازش داده‌ها باید یک server session file ایجاد کرد، session سرور را تبدیل به event نمود و سپس آماده سازی برای مرحله داده کاوی انجام داد

٣. فایل session سرور و ترتیب event ها را بررسی نمود و قوانین را استخراج کرد و خوشه بندی را بر اساس آن انجام داد

۴. استفاده از مکانیزم دانش پرس و جوی ساده، ابزارهای visualization و یا فیلتر کردن اطلاعات به منظور ادغام بیشتر نتایج

۵ – ۱- عملیات پیش پردازش (preprocessing):

داده‌های وب جمع آوری شده معمولا دارای حجم زیاد و بسیار ناهمگن می باشند. این داده‌ها باید به داده‌های سازگار و یکپارچه تبدیل شوند تا بتوانند برای مرحله ی کشف الگو مفید باشند. بنابراین اولین فاز پیش پردازش اطلاعات، آماده سازی اطلاعات می‌باشد (هان و کامبر، ۲۰۰۶، سارابجات و همکاران). در وب کاوی کاربرد وب، این مرحله شامل تشخیص کاربران و جلسات آنها است که به عنوان عناصر سازنده ی اساسی جهت کشف الگو مورد استفاده قرار می گیرند. تشخیص دقیق کاربران و جلسات آنها در طراحی وب سایت و شخصی سازی وب اهمیت ویژه دارد زیرا مدل های کاربران بر مبنای رفتار آنها ساخته می شود که آنها هم بصورت جلسات کاربران وجود دارد. این مرحله همچنین بسیار وابسته به نوع و کیفیت داده‌ها است و از این رو یک مرحلهی دشوار کاربرد کاوی وب محسوب میشود (قادریان، ۱۳۸۷).

۵ – ۱ – ۱ – پاکسازی داده‌ها:

اولین مرحله در پیش پردازش داده‌ها پاکسازی داده‌های خام وب می‌باشد. در این مرحله داده‌های موجود بررسی می شوند و موارد نامربوط یا اضافی آن ها حذف می شود. فرآیند فیلترینگ اولیه به صورت قابل توجهی حجم اطلاعات اصلی را کاهش می دهد (پتر و همکاران، ۲۰۰۷ و ادل). این مساله خصوصا در مورد داده‌های log که توسط وب سرورها جمع آوری می شوند صدق می کند که می توانند به شدت دارای نویز باشند. داده‌های تولید شده توسط عامل های سمت مشتری، پاکیزه هستند زیرا این گونه داده‌ها صریحا توسط سیستم و بدون دخالت کاربر جمع آوری می شوند. از سوی دیگر داده‌های کاربران مانند داده‌های دموگرافیکی آنها باید تعیین اعتبار، تصحیح و نرمالسازی شوند تا بتوانند به کشف الگوهای مفید منجر شوند.

بخش قابل توجهی از تکرارها در فایل های log از مشخصات پروتکل HTTP ناشی می شود که برای هر فایل، تصویر، صوت، ویدیو و … موجود در صفحات وب نیاز به یک درخواست جداگانه به سرور دارد. معمولا وارده هایی که به تصویر، صوت، فایل های ویدیویی و اسکریپت های CGI مراجعه می‌کنند، اضافی محسوب می شوند. این فایل ها بدون این که کاربر صریحا درخواست آنها را بدهد دانلود میشوند و از این رو بخشی از فعالیت حقیقی مرور کاربر محسوب نمی شوند. در نتیجه چنین داده‌هایی معمولا از فایل های ثبت حذف می شوند. با این وجود همان طور که پیشتر اشاره شد، این مرحله وابسته به دامنه است و حذف این گونه موارد از فایل های ثبت می‌تواند منجر به از دست رفتن اطلاعات ارزشمندی شود. یک مثال می‌تواند وب سایتی باشد که بطور عمده ای شامل محتوای چندرسانه ای است (قادریان، ۱۳۸۷).

علاوه بر این، وارده های ثبتی که متناظر با درخواست هایی هستند که انجام نشده اند، مثلا درخواست هایی که با خطای HTTP مواجه شده اند، از فایل های ثبت حذف می شوند. بعلاوه وارده های متناظر با اسپایدرها و خزشگرهای وب (مانند برنامه های دانلود کامل یک وب سایت و درخواست های موتورهای جستجو) نیز باید حذف شوند. اسپایدرها و خزشگرها اغلب از طریق فیلد عامل کابر در log سرور شناسایی می شوند. بیشتر خزشگرها خود را از طریق این فیلد معرفی می‌کنند. راه دیگر شناسایی آنها مشاهده ی الگوی ترافیکی یک بازدید کننده ی خاص می‌باشد. اگر رفتار یک بازدید کننده به گونه ای باشد که تمامی لینکهای موجود در تمامی صفحات یک وب سایت را ملاقات کرده باشد، آن گاه این بازدید کننده یک خزشگر است (قادریان، ۱۳۸۷).

۵ – ۱ – ۲ – شناسایی کاربران

شناسایی کاربرانی که از وب سایت دیدن کرده اند یکی از مهم ترین عوامل برای موفقیت یک وب کاوی صحیح می‌باشد. ساده ترین راه این است که هر آدرس IP متمایز را به یک کاربر متمایز نسبت دهیم. چندین ابزار کاربرد کاوی وب این روش را على رغم درجه ی پایین دقت آن به دلیل وجود پروکسی سرورها، انتخاب کرده اند (پیرکاس و همکاران، ۲۰۰۳). کوکی ها نیز برای تشخیص بازدید کنندگان یک وب – سایت مفید هستند. آنها یک شناسه را در خود ذخیره می‌کنند که توسط وب سرور برای هر کاربر ملاقات کننده ی وب سایت تولید می شود، اما چون کوکی ها یک تهدید برای امنیت و خصوصی بودن محسوب می شوند، کاربران یا آنها را غیر فعال می‌کنند و یا آنها را حذف می‌کنند. علاوه بر این، اگر یک کاربر با استفاده از ماشین های مختلفی به اینترنت متصل شود آن گاه آن کاربر را نمی توان با کوکی به درستی شناسایی کرد. به دلیل وجود این مشکلات، تکنیک‌های مکاشفهای ارائه شده است. یکی از این تکنیک ها این است که از سرویس های خاص اینترنتی مانند inetd و fingerd استفاده کنیم که اطلاعات مختلفی در باره ی مشتری ای که در حال دسترسی به وب سرور است، فراهم می کند. یک مشکل این روش آن است که این سرویس ها نیز ممکن است به دلایل امنیتی غیر فعال شوند. بعلاوه، اگر کاربران از طریق پروکسی سرورها به سایت دسترسی کنند، شناسایی آنها از طریق سرویس های inetd و fingerd غیر ممکن است، چون پروکسی سرور به عنوان میزبانی برای آدرس های IP تعداد زیادی کاربر عمل می کند.

دو روش مکاشفهای دیگر برای غلبه بر مشکلات شناسایی کاربر ارائه شده است (کولی و همکاران، ۱۹۹۹). روش اول تحلیلی بر روی فایل log وب سرور انجام می دهد و در آن به دنبال مرورگرهای مختلف یا در صورت یکسان بودن IP آنها، به دنبال سیستم های عامل مختلف بر اساس نوع و نسخه ی آنها می گردد. این اطلاعات همراه با هم وجود کاربران متفاوت را نشان می دهد. روش دوم که در همان کار ارائه شده است توپولوژی وب سایت را همراه با واردههای ارجاع دهنده ی دسترسی ترکیب می کند. اگر آدرس IP درخواست به یک صفحه با آدرس IP در خواست به یک صفحه ی دیگر یکسان باشد و هیچ لینک مستقیمی بین این صفحات وجود نداشته باشد، آنگاه احتمالا کاربر جدیدی به سایت دسترسی کرده است. حتی این دو روش نیز بدون مشکل نیستند. صرف نظر از هزینه ی محاسباتی آنها، موارد زیادی پیش می آید که این مکاشفه ها درست عمل نمی‌کنند. به عنوان مثال هنگامی که یک کاربر مرورگرهای متفاوتی را همزمان استفاده می کند و یا با استفاده از پنجره های متفاوت یک مرورگر از دو صفحه ی مختلف یک سایت دیدن می کند که مستقیما به هم لینک ندارند. مشکل دیگر روش دوم آن است که بطور کامل مشکل شناسایی کاربر را حل نمی۔ کند، زیرا ممکن است بازدیدهای گوناگونی از یک کاربر یکسان را در زمان های مختلف به هم مربوط کند. روش دیگری نیز برای شناسایی کاربر پیشنهاد شده است (پیرکاس و همکاران، ۲۰۰۳). یک شناسه ی یکتا که توسط وب سرور برای هر کاربر تولید شده است در URL صفحات تحویل داده شده به کاربر وارد می شود. بجای ذخیره ی این شناسه در یک فایل کوکی، از کاربر درخواست می شود که یکی از این صفحات را که آن شناسه را به عنوان بخشی از URL خود دارند، bookmark کند. هنگامی که کاربر بار دیگر به سایت مراجعه می کند، این شناسه برای شناسایی او مورد استفاده قرار می گیرد و در فایل ثبت بجای آدرس IP کاربر ذخیره می شود. این یک روش بسیار ساده است که مشکلات کوکی ها را ندارد، با این وجود این تکنیک نیز دارای مشکلات خاص خود است. مشکل اصلی آن این است که روش شناسایی آن نیمه خودکار است، چون کاربر باید یک صفحه را bookmark کند و از آن صفحه برای دسترسی به وب سایت استفاده کند. در غیر این صورت شناسه ی کاربر غیرقابل استفاده خواهد بود. علاوه بر این، وضعیتی که یک کاربر از ماشین های مختلف به یک سایت دسترسی می کند نیز همچنان به عنوان یک مشکل باقی خواهد بود (قادریان، ۱۳۸۷).

۵-۱-۳ – تشخیص مشاهده صفحه:

تشخیص مشاهده صفحه ها به شدت وابسته به ساختار داخل صفحات سایت و نیز محتوا و دانش دامنه ی سایت می‌باشد. برای سایتی که تمام صفحات آن تک فریمی هستند هر فایل HTML متناظر با یک مشاهده صفحه است. برای سایت‌های دارای صفحات چند فریمی، چندین فایل، یک مشاهده صفحه را تشکیل میدهند. بدون داشتن اطلاعات ساختار سایت، تشخیص مشاهده صفحه ها از ثبت وب سرور دشوار است. به علاوه ممکن است مطلوب باشد که مشاهده صفحه ها را در سطح بالاتری از انتزاع در نظر بگیریم که در آن هر مشاهده صفحه مجموعه ای از اشیای موجود در صفحه را نشان می دهد، مانند صفحات مرتبط با یک مفهوم خاص در سلسله مراتب مفاهیم.

ممکن است برخی از مشاهده صفحه ها برای یک وظیفه ی خاص داده کاوی مرتبط و مناسب نباشند. از بین مشاهده صفحه – های مرتبط نیز برخی ممکن است با ارزش تر از سایرین باشند. ارزش یک مشاهده صفحه می‌تواند وابسته به مشخصه های محتوایی، ساختاری، کاربردی و نیز دانش دامنه ی وب سایت (که توسط طراح سایت یا تحلیل گر داده‌ها تعیین می شود) باشد. به عنوان مثال، رویدادهای مربوط به محصولات (مانند مشاهدات مربوط به اطلاعات محصولات) ممکن است مهم تر از بقیه در نظر گرفته شوند. به طور مشابه، در یک سایت که به منظور تحویل محتوا طراحی شده است، صفحات محتوایی ممکن است مهمتر از صفحات گردشی صفحاتی که محتوای زیادی ندارند و عمدتا شامل لیستی از لینک ها به صفحات محتوایی هستند محسوب شود.

به منظور داشتن یک چارچوب انعطاف پذیر برای شخصی سازی وب، باید برای هر مشاهده صفحه، تعدادی ویژگی در نظر گرفت. این ویژگی ها شامل شناسه ی مشاهده ی صفحه (معمولا URL که هر صفحه را بصورت یکتا نمایندگی می کند)، مدت زمان مشاهده ی صفحه، نوع مشاهده صفحه ی ایستا (مثلا صفحه ی اطلاعاتی، مشاهده محصول، صفحه ی اندیس و …) و سایر متادادهها از قبیل ویژگی های محتوایی میباشند.

۵-۱-۴ – تشخیص جلسه ی ۱۴ کاربر:

تشخیص جلسات کاربر در پروژه های وب کاوی کاربرد وب اهمیت ویژه ای دارد، چون جلسه ها رفتار گردشی کاربران را نمایش می دهند و از این رو برای کشف الگو بسیار اهمیت دارند. یک جلسه ی کاربر، یک مجموعه از صفحات ملاقات شده توسط آن کاربر در طول یک بازدید خاص او از وب سایت است:

روش های مکاشفهای گوناگونی برای تشخیص جلسات کاربر مورد استفاده قرار گرفته اند (۲۳). Spiliopoulou این روش ها را به روش های مبتنی بر زمان و روش های مبتنی بر S=<P1,P2, …Pn> موضوع تقسیم بندی می کند. نمونه هایی از مکاشفه های بر مبنای زمان عبارتند از استفاده از حد بالا برای زمان صرف شده بر روی یک صفحه و یا حد بالا برای طول زمان یک جلسه دسترسی به انواع خاص از صفحات و یا تکمیل یک واحد مفهومی از کار از جمله روش های مبتنی بر موضوع می باشند.

روش های مبتنی بر زمان در بیشتر متون کلاسیک توضیح داده شده اند (پیرکاس و همکاران، ۲۰۰۳). براساس این رویکردها، در صورتی مجموعه ای از صفحات ملاقات شده توسط یک کاربر خاص به عنوان یک جلسه ی او در نظر گرفته می شود که آن صفحات در یک بازه ی زمانی کمتر یا مساوی یک مدت زمان خاص درخواست شده باشند. این مدت زمان خاص به زمان مشاهده ی صفحه معروف است و از ۲۵. ۵ دقیقه تا ۲۴ ساعت متغیر است. مدت زمان ۳۰ دقیقه به عنوان مقدار پیش فرض در نظر گرفته می شود. با این وجود، این روش دارای قابلیت اطمینان کافی نمی‌باشد، چون اعمال کاربر را نمی توان بطور دقیق فهمید و این اعمال بسیار گوناگون می باشند. مثلا کاربر ممکن است برای یک مدت طولانی یک صفحه را بخواند و یا ممکن است در حین خواندن یک صفحه، محیط را ترک کند و پس از مدتی بازگردد. علاوه بر این، مقدار این بازه ی زمانی به شدت به محتوای سایت وابسته است.

یک مشکل مهم در رابطه با روش های معمول مبتنی بر زمان، مشکل cache است که ممکن است سیستم را به این نتیجه برساند که جلسه پایان یافته است، در حالی که کاربر هنوز مشغول گردش در صفحات از طریق cache می‌باشد. این مشکل می‌تواند تا حدی با معرفی HTTP header های خاصی برطرف شود. روش دیگر برای اندازه گیری زمان مشاهده ی صفحات، استفاده از عامل های جاوا است که هر وقت یک صفحهی جدید در مرورگر کاربر بارگذاری می شود و یا از بارگذاری خارج می شود، زمان سیستم کاربر را به سرور اطلاع می دهند. با این حال، فاکتورهای خارجی مانند ترافیک شبکه و نوع مرورگر مورد استفاده توسط کاربر موانع مهمی برای این روش محسوب می شوند. علاوه بر این، عوامل جاوا می توانند توسط کاربر غیرفعال شوند.

روش دیگری نیز برای تشخیص جلسات کاربر با تغییر NCSA httpd server ارائه شده است که شناسه ی جلسه را در صفحات وب وارد می کند (پیرکاس و همکاران، ۲۰۰۳). اولین باری که یک صفحه وب از یک آدرس IP خاص درخواست می شود یک شناسه در این صفحه تعبیه می شود که متناظر با شروع جلسه ی کاربر است. این شناسه در درخواست های بعدی آن آدرس IP نگاه داشته می شود و یک مکانیسم time out برای جدا کردن شناسه های مختلف جلسه مورد استفاده قرار می گیرد. با این وجود، کش کردن ممکن است دقت این رویکرد را تحت تاثیر قرار دهد، چون صفحات درخواست شده از کش در جلسات به حساب نمی آیند.

۵ – ۱ – ۵ – تکمیل مسیر:

یک مساله در شناسایی جلسات کاربر بصورت قابل اعتماد تعیین آن است که آیا دسترسی های مهمی وجود دارند که در فایل های ثبت دسترسی ذخیره نشده باشند یا خیر؟. این مساله به تکمیل مسیر معروف است. روش هایی که برای شناسایی کاربر استفاده می شوند، می توانند در این مورد هم مورد استفاده قرار گیرند. اگر درخواستی به صفحه ای انجام شود که مستقیما به آخرین صفحه ای که کاربر درخواست کرده لینک ندارد، فیلد ارجاع دهنده ها را باید بررسی کنیم تا بفهمیم که این درخواست از کدام صفحه ناشی شده است. اگر آن صفحه در تاریخچهی درخواست های کاربر موجود باشد، می توان فرض کرد که کاربر با استفاده از دکمه ی back مرورگر از صفحات موجود در کش مرورگر استفاده کرده است و سپس یک صفحه ی جدید درخواست شده است. اگر فیلد ارجاع دهنده کاملا واضح نباشد، توپولوژی سایت می‌تواند مورد استفاده قرار گیرد. اگر بیش از یک صفحه در تاریخچه ی کاربر به صفحه ی درخواست شده لینک داشته باشند، می توان فرض کرد که نزدیک ترین صفحه به صفحه ی در خواست شده ی قبلی، منبع درخواست کاربر بوده است. مراجعات صفحه ای که در فایل ثبت وجود ندارند و از این طریق کشف می شوند، سپس به جلسه ی کاربر اضافه می شوند. یک الگوریتم برای تخمین مدت زمان بازدید صفحه ی اضافه شده مورد نیاز است. یک روش ساده آن است که هر گونه بازدیدی که از یک صفحه ی قبلا دیده شده در همان جلسه انجام می گیرد را به عنوان بازدید به یک صفحه ی گردشی در نظر بگیریم. همچنین می توان از متوسط زمان مشاهده ی صفحات سایت نیز برای تخمین زمان بازدید این گونه صفحات استفاده کرد (قادریان، ۱۳۸۷).

۵ – ۱ – ۶ – تشخیص تراکنش:

در برخی کاربردها جلسات کاربر را می توان برای تولید عناصر مفیدتری پردازش کرد. یکی از این نوع عناصر مفهوم تراکنش یا دوره می‌باشد. این کلمه از داده کاوی گرفته شده است و عمدتا در تحلیل سبد خرید مورد استفاده قرار می گیرد. یک تراکنش، زیر مجموعه ای از صفحات مرتبط است که در یک جلسه ی کاربر رخ داده اند. به منظور شناسایی تراکنش ها فرض شده است که تراکنش ها به رفتار گردشی یک کاربر خاص در وب سایت به شدت وابسته هستند و می توان آنها را با استفاده از اطلاعات مفهومی شناسایی کرد. بر مبنای این فرض، صفحات یک سایت به سه دسته تقسیم می شوند. دسته ی اول صفحات گردشی یا دلخواه هستند که عمدتا شامل لینک به صفحات دیگر هستند و فقط برای مرور کردن سایت استفاده میشوند. دسته ی دوم صفحات محتوایی هستند که شامل داده‌های مورد علاقه ی کاربر می باشند و دسته ی سوم صفحات ترکیبی هستند که خصوصیات هر دو دسته ی قبلی را دارند. اگرچه صفحاتی در وب وجود دارند که بطور واضحی در یکی از این سه گروه قرار می گیرند، مانند صفحات اندیس و صفحات اصلی سایت، اما این دسته بندی صراحت کافی ندارد و به نحوه ی دید کاربر بستگی دارد. یک صفحه که برای یک کاربر خاص صفحه ی گردشی محسوب می شود ممکن است برای کاربر دیگر صفحه ی محتوایی به شمار آید.

تراکنش ها به دو دسته تقسیم شده اند (کولی و همکاران، ۱۹۹۹). دسته ی اول تراکنش های فقط محتوایی هستند که متناظر با صفحات محتواییای می باشند که کاربر مشاهده کرده است. دسته ی دوم تراکنش های محتوایی گردشی می باشند که متناظر با مسیرهایی هستند که به صفحات محتوایی ختم می شوند. دو روش برای شناسایی تراکنش ها وجود دارد که عبارتند از طول ارجاع و حداکثر ارجاع به جلو. روش طول ارجاع، مدت زمانی را که کاربر بر روی یک صفحه صرف می کند در نظر می گیرد. اگر این مدت زمان از یک مقدار آستانه بیشتر باشد، آن گاه فرض می شود که آن صفحه حاوی اطلاعات مفیدی می‌باشد و از این رو یک صفحهی محتوایی است و به تراکنش های فقط محتوایی اضافه میشود. در غیر این صورت آن صفحه، گردشی در نظر گرفته می شود و به تراکنش های محتوایی گردشی اضافه میشود. در تراکنش های محتوایی-گردشی فرض می شود که آخرین صفحه ی ملاقات شده توسط کاربر همیشه یک صفحه ی محتوایی است. هر گونه وقفه ای که توسط عوامل خارجی در دنباله ی مرور کاربر ایجاد شود ممکن است به تشخیص اشتباه یک صفحه ی محتوایی منجر شود. مشکل دیگر در رابطه با این روش، تعریف مقدار مناسب برای آستانه است که بسیار وابسته به محتوای سایت می‌باشد. در روش حداکثر ارجاع به جلو، یک تراکنش بصورت مجموعه ای از صفحات تعریف می شود که از اولین صفحه شروع شده و به صفحه ای ختم می شود که در آن یک ارجاع به عقب رخ داده است. یک ارجاع به عقب، صفحه ای است که اخیرا در تراکنش جاری وجود دارد. تراکنش بعدی با ارجاع به جلوی بعدی شروع می شود، یعنی صفحه ی جدیدی که در تراکنش ذخیره شده موجود نمی‌باشد. با استفاده از دسته بندی صفحات به محتوایی و گردشی، می توان گفت که صفحات حداکثر ارجاع به جلو صفحات محتوایی هستند، در حالی که صفحاتی که به این صفحات منتهی می شوند صفحات گردشی می باشند. این روش یک مزیت نسبت به روش طول ارجاع دارد، چون مستقل از محتوای سایت است. با این وجود، از یک مشکل مهم رنج می برد و آن این است که cache کردن صفحات وب مانع از ذخیره شدن ارجاعات به عقب در فایل های ثبت می شود.

روش دیگری نیز برای تشخیص تراکنش وجود دارد که از اطلاعات مفهومی برای شناسایی یک دنباله از اعمال که مرتبط با یک قلم خاص می باشند، در دنباله ی مرور کاربر استفاده می کند. این دنباله از اعمال تمرکز توجه جاری نامیده میشوند. اعمالی که بدون تغییر تمرکز مرور انجام می شوند تاریخچهی محلی را تشکیل میدهند و برای تحلیل رفتار کاربر مورد استفاده قرار می گیرند (قادریان، ۱۳۸۷).

۵- ۲- تشخیص الگوها:

در این مرحله از کاربرد کاوی وب الگوریتم های داده کاوی روی اطلاعات منتج شده از مرحله قبل اعمال می گردند. از این جمله این الگوریتم ها می توان به classification sequential pattern discovery association rules و clustering اشاره کرد.

۵ – ۲ – ۱ – خوشه بندی:

تکنیک‌های خوشه بندی گروه هایی از اقلام مشابه را میان حجم بالایی از داده‌ها تشخیص می دهد. بطور کلی، دو نوع خوشه بندی می‌تواند روی داده‌های تراکنشی کاربرد وب انجام شود که عبارتند از خوشه بندی تراکنش ها (یا کاربران) و خوشه بندی مشاهده صفحه ها. هر یک از این رویکردها کاربردهای مختلفی دارند و بطور خاص، هر دو رویکرد را می توان برای شخصی سازی وب استفاده کرد. کارهای زیادی در زمینه ی کاربردهای خوشه بندی در وب کاوی کاربرد وب، بازاریابی اینترنتی و شخصی سازی وب و طراحی بهینه وب سایت ها انجام گرفته است. در روش مبتنی بر خوشه بندی، میتوان جلسه ی جاری را بصورت بردار از اشیاء نشان داد و پروفایل تجمعی را که بیشترین شباهت را با آن دارد به عنوان مبنا برای توصیه استفاده کرد.

۶- مورد تحقیق:

در این مقاله برای تجزیه و تحلیل اطلاعات موجود در log فایل وب سرورها، از اطلاعات موجود در یکی از وب سایت‌های معروف اینترنتی که بنا به حوزه کاری در دسترس مان بود استفاده کردیم. مشخصات داده‌های ورودی مورد تحقیق عبارتند از:

جدول ۱: مشصات اطلاعات ورودی برای عمل پیش پردازش حجم اطلاعات:

حجم اطلاعات: ۶۱۹ MBتعداد رکوردهای log۹۷۸۸۵۷
میانگین روزانه: ۲۲ MBرکوردهای حذف شده log: ۱۴۱۰۲
تعداد سرور: ۱ دستگاه
تعداد فایلهای log: 28 فایلاسکریپت ها: ۵۸۴۳۵
میانگین سایز فایلها: ۲۳ MBفایلهای صفحات: WEB ۱۶۹۳۲۵
دوره زمانی: یک ماهفایل های تصویر: ۷۱۰۹۵۰
فایلهای اسناد: ۱۴۲۶۵
بقیه فایلها: ۱۱۷۸۰

در این مقاله با استفاده از برنامه نرم افزاری که در محیط دلفی نوشته ایم کلیه اطلاعات موجود را وارد پایگاه داده Access نمودیم. مدل نرم افزار مذکور به گونه ای عمل می کند که می توان فایلهای log ایجاد شده توسط سرور را به عنوان ورودی در آن فراخوانی نمود و به صورت اتوماتیک نتایج مورد نظر را براساس شاخص های ارزشی مشخص شده، دریافت نمود.

از میان اطلاعات موجود در فایل log سرور، داده‌های نامرتبط با اهداف انجام تجزیه و تحلیل را حذف کردیم. اطلاعاتی همانند log هایی از درخواست های معتبر، فایل های تصویر (با پسوندهایی مانند style sheet gif)، bmp، jpg، اسکریپ های سمت سرور و اسناد (فایلهای access excell word …) از اطلاعات موجود کنار گذاشته شدند. و تمرکز اصلی روز صفحات وبی است که کاربران آنها را پیمایش نموده اند. سپس داده‌ها ساختار بندی شده دیتا بیس بهینه سازی و شاخص بندی شده است. از میان کل اطلاعات موجود پس از پاکسازی اطلاعات، فیلدهای زیر را برای تجریه و تحلیل نگه داشته ایم:

شکل ۲- فیلدهای انتخابی

مرحله بعدی شناسایی کاربران انتخاب شده است. که این شناسایی را براساس آدرس IP کاربران انجام دادیم. در این میان کاربرانی را انتخاب کردیم که تعداد دفعات درخواستهایشان دو ویژگی زیر را داشت:

  • تعداد درخواست ها نه آنقدر زیاد بود که نتایج بدست آمده را به سمت سلایق فرد خاصی هدایت کند.
  • تعداد درخواست ها نه آنقدر کم بود که نتوان مسیر حرکت در صفحات مختلف را ردیابی کرد

در نتیجه تعداد ۳۲۱ کابر شناسایی شدند که بین ۵۰ تا ۱۷۳۷ بار درخواست بازدید صفحات متفاوت را داشتند که در شکل ۳ مشهود است.

شکل ۳- محدوده تعداد دفعات درخواست صفحات وب توسط کاربران انتخاب شده

به کمک نرم افزار طراحی شده فایل event مرتبط با session های کاربران تولید شد. که از بین ۵۷۳۳۵ رکورد اطلاعاتی بدست آمده از فایل log سرور، ۵۷۰۱۴ مسیر از آن استخراج شد که خروجی آن مطابق با شکل شماره ۴ می‌باشد.

شکل ۴- فایل event

با بررسی مسیرهای تعریف شده در فایل event کاربران به کمک روش خوشه بندی، مسیرهای با ارزش تفکیک و الگوهای حرکت کاربران در بین صفحات وب مورد ارزیابی قرار گرفت. نمونه ای از الگوهای بدست آمده عبارتند از:

۱- اکثریت کاربران بعد از ورود به سایت اصلی بلافاصله وارد قسمت تازه ترین محصولات می شوند.

٢- تعداد قابل توجهی از کاربران در هر session ارتباطی حداقل یک مرتبه به بخش محصولات فرهنگی رجوع می نمایند

۳- بیشتر کاربران قبل از انجام تراکنش خرید از قسمت راهنمای خرید بازدید کرده اند.

۴- تقریبا تمامی کاربرانی که پیمایش صفحاتشان در نهایت به خرید انجامید در این میان از قسمت «قرعه کشی و جوایز خرید» دیدن کرده اند.

با استناد به الگوهای بدست آمده طراحی وب سایت فروش می‌تواند به صورت زیر بهینه گردد

  • قسمت تازه ترین محصولات باید از نظر ناوبری به گونه ای در سایت قرار بگیرد که از تمامی صفحات به راحتی قابل دسترس باشد.
  • راهنمای خرید حتما باید در ابتدای مسیر انجام تراکنش ها در دسترس کاربران قرار گیرد و به صورتی طراحی انجام شود که کاربران در هر مرحله از انجام خرید در صورتیکه با ابهام مواجه شوند بتوانند از اطلاعات موجود در آن بهره گیرند.

و به همین ترتیب می توان از نتایج استخراج شده از الگوها برای طراحی وب سایت‌های موفق فروش که شخصی شاخص را به عنوان یک اصل مهم لحاظ می‌کنند بهره برد.

یکی از موارد جالب توجه که در بررسی فیلد cs (user – agent) دیده شد استفاده ۸۷ درصدی کاربران از مرورگر Mozilla برای بازدید صفحات بود که در شکل ۵ نمونه ای از آن دیده می شود و نشان دهنده این است که طراحان وب سایت باید دقت نمایند که قالب صفحات طراحی شده و css هایی که مورد استفاده قرار می دهند با این مرورگر تطابق کامل داشته باشند.

شکل ۵- لیست اطلاعات موجود

در شکل ۶ نمایی از نرم افزار طراحی شده به زبان دلفی نشان داده شده است:

شکل ۶- شمایی از نرم افزار طراحی شده

۷- اطلاعات فروش

هر سازمانی که از اینترنت برای تجارت در خدمات و محصولات استفاده می کند قاعدتا از یک سیستم اطلاعاتی برای خرید و فروش در اینترنت بهره می گیرد. بدیهی است که برخی از سازمان نسبت به دیگران از سیستم های پیچیده تری استفاده می نمایند. حداقل اطلاعاتی که در این سیستم ها ذخیره می شود مربوط به محصولات، مشتریان و معاملات می‌باشد که بنا بر پیچیدگی این سیستم های اطلاعاتی ممکن است در جزئیات ذخیره شده این اطلاعات تفاوت هایی وجود داشته باشد. بیشتر معامله گران کسب و کارهای پیچیده الکترونیکی از بررسی این اطلاعات برای ردیابی اطلاعات مشتریان، جزئیات توزیع و اطلاعات تبلیغی در وب سایت‌هایشان در ارتباط با خدمات و محصولاتی که ارائه می دهند، بهره می برند. بنابراین از این اطلاعات نیز می توان به گونه ای در تعیین استراتژی‌های بازاریابی استفاده کرد. بدین معنی که می توان مشخص نمود بازار عدن برای هر کدام از محصولات به چه صورت است و یا اینکه چه محصولات و خدماتی محبوب چه گروه خاصی از مشتریان هستند.

۸- نتیجه گیری

با ایجاد و گسترش وب و افزایش چشمگیر حجم اطلاعات، روش ها و تکنیک‌هایی برای استفاده از این اطلاعات و استخراج اطلاعات جدید از آنها مورد نیاز می‌باشد. روش های سنتی بازیابی اطلاعات که برای جستجوی اطلاعات در پایگاه داده‌ها به کار می روند، قابل استفاده در وب نمی باشند. وب کاوی که به کارگیری تکنیک‌های داده کاوی برای کشف و استخراج خودکار اطلاعات از اسناد و سرویس های وب می‌باشد، می‌تواند برای این منظور مورد استفاده قرار می گیرد. هدف از این مقاله ارائه ی روشی برای بهبود طراحی وب سایت‌های فروش در جهت رسیدن به بازاریابی هوشمند در وب با استفاده از تکنیک وب کاوی است

هدف اصلی وب کاوی و خصوصا شاخه کاربرد کاوی وب، جمع آوری اطلاعات راجع به الگوهای پیمایش کاربران می‌باشد. این اطلاعات می‌تواند برای بهبود سایت‌های وب از دید کاربران به کار رود. نتایج به دست آمده از کاوش استفاده از وب می‌تواند به طراحی مناسب سایت‌های وب کمک شایانی نماید.

مهم ترین دستاورد این مقاله ارائه ی یک سیستم نرم افزاری جدید برای بدست آوردن الگوها و کشف دانش در ارتباط با رفتار مشتریان در مدت زمان حضورشان در وب سایت می‌باشد. یکی از جدیدترین موضوعات مطرح در زمینه ی مدلسازی رفتار کاربران استفاده از فایلهای log وب سرور هاست. بعضی معتقدند که این رفتارها را می توان با تجزیه و تحلیل پروفایل های کاربران پیش بینی نمود اما واقعیت این است که علایق کاربران با گذشت زمان تغییر می کند. این تغییرات بر اثر تغییر طبع کاربر با گذر زمان ایجاد میشود. از این رو جلسات کاربران را باید بصورت جریان داده‌هایی در نظر گرفت که با گذر زمان تغییر می‌کنند. بنابراین وجود یک سیستم نرم افزاری که بتواند فایلهای log وب سرورها را در دوره های زمانی متفاوت مورد تجزیه و تحلیل قرار دهد تا استراتژی‌های فروش و طراحی وب سایت‌های فروش را براساس آن پیاده سازی گردد، لازم و ضروری به نظر می رسد. البته باید توجه داشت که در نهایت به وجود یک فرد متخصص و آگاه برای استخراج قوانین و الگوها در این رابطه نیاز است و این مرحله تنها به کمک نرم افزار قابل انجام نیست.

منابع:

Chun-Ling ZHANG, Zun-Feng LIU, Jing-Rui YIN, “The Application Research on Web Log Mining

in E-Marketing”

José Roberto de Freitas Boullosa, Geraldo Xexéo, “An Architecture for Web Usage Mining”

Ana Carneiro, “Using Web Data for Measuring the Effectiveness of an E-Commerce Site”,

University of PORTO, 2008

ZAÏANE, O., R., 1999, “Resource and Knowledge Discovery from the Internet and Multimedia

Repositories”, Ph.D. thesis, School of Computing Science, Simon Fraser University, Vancouver, BC,

Canada. url: http://www.cs.aue.auc.dk/datamining/papers/osmarzaianephd.pdf

Chakrabarti S., Martin van den Berg, Byron Domc, 1999, “Focused crawling: a new approach to

topicspecific Web resource discovery, Computer Science and Engineering, Indian Institute of

Technology, Bombay, 400076, India, FX Palo Alto Laboratory, 3400 Hillview Ave, Bldg 4, Palo Alto,

CA 94304, USA,c IBM Almaden Research Center, 650 Harry Rd, San Jose, CA 95120, USA,

www.csd.uch.gr/~hy558/papers/chakrabarti99focused.pdf

Kin-nam Lau; Kam-hon Lee; Ying Ho; Pong-yuen Lam, ”Mining the web for business intelligence:

Homepage analysis in the internet era”, Journal of Database Marketing & Customer Strategy

Management, Sep 2004, 12, 1, ABI/INFORM Global pg. 32

Feiyu Xu, 2001,”Overview of FASTUS”, DFKI LT-Lab

www.ics.mq.edu.au/~diego/publications/ALTSS03L2.pdf

۱۷.M. Claypool, Phong Le, M. Waseda, D. Brown,”Implicit Interest Indicators”, IEEE Internet

Computing, Nov./Dez. 2001 http://www.computer.org/internet

Berendt, B. (2002a), “Using site semantics to analyze, visualize, and support navigation”, Data

Mining and Knowledge Discovery, 6, pp.37-59.

SPILIOPOULOU, M., 1999, “The laborious way from data mining to web mining”, International

Journal of Comp. Sys., Sci. & Eng., Special Issue on “Semantics of the Web”, v. 14 (Mar), pp. 113-126.

COOLEY, R. MOBASHER, B., SRIVASTAVA, J., 1999, “Data Preparation for Mining World

Wide Web Browsing Patterns”, Knowledge and Information Systems v.1, n.1 (Jan), pp. 5‐۳۲.

Facca, M. L. and P. L. Lanzi (2005), “Mining interesting knowledge from weblogs: a survey”, Data

knowledge engineering 53, pp. 225-241.

  1. Perner and G. Fiss, “Intelligent E-Marketing with Web Mining, Personalization and Useradpated

Interfaces”, P. Perner (Ed.), Data Mining in E-Commerce, Medicine, and Knowledge

Management, Springer Verlag 2002, lnai 2394

Pierrakos, D., Paliouras, G., Papatheodorou, C., Spyropoulos, C.D. 2003, “Web usage mining as a

tool for personalization: a survey”, User Modelling and User-Adapted Interaction, Vol. 13 No.4, pp.311-

۷۲

Alex G. B chner, Maurice D. Mulvenna, “Discovering Internet Marketing Intelligence through

Online Analytical Web Usage Mining”

Jae Jeung Rho, Byeong-Joon Moon, Yoon-Jeong Kim, Dong-Hoon Yang, “Internet Customer

Segmentation Using Web Log Data”, Journal of Business & Economics Research – November, 2004,

Volume 2, Number 11

Mark-David Draheim, Christoph Hanser, Caspar von Seckendorff, “Web Log Analysis:

testberichte.de”, Humboldt University- Berlin, Seminar Paper’, Winter Term 2004/05

Sarabjot S.Anand, Matthias Baumgarten, Alex Buchner, Mulvenna, “Gaining Insights into Web

Customers using Web Intelligence”

  1. Han and M. Kamber, “Data Mining: Concepts and Techniques, Second Edition”, Morgan

Kaufman Publishers, 2006

میثم قادریان، «بهبود مدل کاربر در وبسایت بصورت خودکار با استفاده از معناشناسی با مفاهیم خاص دامنه»، پایاننامه کارشناسی ارشد رشته مهندسی کامپیوتر گرایش نرمافزار، ۱۳۸۷

Peter Géczy, Noriaki Izumi, Shotaro Akaho, Kôiti Hasida, “HUMAN WEB BEHAVIOR MINING”,

IADIS International Conference WWW/Internet 2007

Adel Flici, “A Direct Marketing Framework to Facilitate Data Mining Usage for Marketers: A

Case Study in Supermarket Promotions Strategy”, Business School, Brunel University, London, UK

  1. Spiliopoulou, L. C. Faulstich and K. Wilker, “A Data Miner Analyzing the Navigational

Behavior of Users”, Proceedings of the Workshop on Machine Learning in User Modeling of the

ACAI99, Chania, Greece, 1999, 54-64.

Büchner, A.G. and Mulvenna, M.D. (1998), “Discovering Internet Marketing Intelligence through

Online Analytical Web Usage Mining”, SIGMOD Record 27(4): 54–۶۱