موتور جستجو یوز - yooz search engine

یوز بلاگ - نتیجه جستجو در میان صفحات وب فارسی، فیلم‌ها، اخبار و مقالات نابی است که شما می‌توانید به راحتی به آن‌ها دسترسی پیدا کنید.

موتور جستجو یوز - yooz search engine

یوز بلاگ - نتیجه جستجو در میان صفحات وب فارسی، فیلم‌ها، اخبار و مقالات نابی است که شما می‌توانید به راحتی به آن‌ها دسترسی پیدا کنید.

یوز یک موتور جستجوی ایرانی است که بر منابع فارسی موجود در فضای وب تمرکز دارد. طراحی و تولید موتور جستجوی یوز از اواخر سال 1388 با تلاش نیروهای متخصص داخلی آغاز شده است. یوز تاکنون توانسته است حدود یک میلیارد صفحه را پوشش دهد و احاطه گسترده ای بر وب فارسی داشته باشد. یوز همچنین دارای خدمات جستجوی خبر، وبلاگ و عکس می‌باشد.
تمرکز بر زبان فارسی
سرعت بسیار بالا با هدف گذاری پاسخ‌دهی سریع به کاربران با میانگین تأخیر کمتر از ۱ ثانیه
تحلیل نیازهای متداول کاربران و پاسخ‌دهی مستقیم به چندین نوع از جستجوهای کاربران
معماری بی‌درنگ به نحوی که صفحات جدید، تا چند دقیقه پس از خزش، قابل جستجو می‌باشند
معماری مقیاس‌پذیر به نحوی که برای افزایش پوشش صفحات وب، فقط کافیست ماشین‌های جدید به خوشه‌ها اضافه شود

بایگانی
  • ۰
  • ۰



مشاهده ویدیو

http://www.aparat.com/v/UbGHm


یادش بخیر، این فیلم برای دورانِ کودکی یوز بود، اون موقع حدود یک میلیارد صفحه از وب فارسی رو داشتیم. ولی الان یک یوزِ تازه نفس در راهه که تا این لحظه بیش از ۳۰ میلیارد از صفحات وب فارسی رو تحت پوشش قرار داده. منتظر خبرهای جدید ما باشید | یوزنامه – وبلاگ موتور جستجو یوز yooz.ir

سلام!

خیلی خوشحالم که به اطلاع برسونم: نسخهٔ جدید موتور جستجوی یوز از امروز در دسترس کاربران قرار گرفت. این نسخه حاصل بیش از یک سال کار کل تیم یوز در بخش‌های مختلف (از جمله واسط کاربری، خزشگر، تحلیل صفحات، الگوریتم‌های رتبه‌بندی، شاخص‌گذار و …) هست. اینجا یه اشارهٔ مختصری به تغییرات اصلی انجام شده توی این نسخه می‌کنم.

در مورد نسخهٔ جدید واسط کاربریمون، حسن جان اینجا توضیح کافی داده: http://blog.yooz.ir/?q=node/34

ما توی این مدت که موتور رو در معرض استفادهٔ کاربرا قرار دادیم، درخواست‌های بسیاری از وبمسترها داشتیم مبنی بر خزش کردن سایتشون (البته خزشگر ما به صورت خودکار سایت‌ها و صفحات رو کشف می‌کنه). توی این نسخه، ما خزشمون رو از نو و با دید متفاوتی شروع کردیم. در نتیجه این نسخه دارای داده‌های به‌روزتر خواهد بود (می‌تونید تعداد صفحاتی که از سایت شما خزش و شاخص‌گذاری شده رو با عملگر :site یا سایت: بررسی کنید، به عنوان مثال سایت:yooz.ir). نکتهٔ دیگه این که صفحاتی که از وب پاک شدن، به محض کشف توسط خزشگر ما، از نمایه (index) هم حذف می‌شن و در نتیجه خروجی جستجو، تر و تمیزتر هست.

تغییر مهم دیگه‌ای که داشتیم، توی تحلیل صفحات هست. توی این نسخه تحلیل‌گر صفحات رو از نو نوشتیم (به علت تغییرات گسترده‌ای که باید توش انجام می‌شد). نسخهٔ قدیم تحلیل‌گر صفحات، اشکالات ریز بسیاری داشت، که هر کدوم از این اشکالات باعث می‌شد برخی از صفحات درست تحلیل نشن و در نتیجه درست شاخص‌گذاری نمی‌شدن و توی جستجو هم توی خروجی نمیومدن. در نتیجه توی نسخهٔ جدید، صفحات با دادهٔ صحیح‌تری تحلیل می‌شن و در نتیجه به طور کلی نتایج جستجو بهبود پیدا کرده. در ضمن جالبه بدونید که سرعت نسخهٔ جدید تحلیل‌گر صفحاتمون چندین برابر نسخهٔ قبلی هست: الان به طور متوسط، هر صفحه در عرض کمتر از ۴۰ میلی‌ثانیه (یا ۰.۰۴ ثانیه) تحلیل می‌شه.

یکی دیگه از تغییرات اساسی‌ای که داشتیم، تغییر معماری نحوهٔ نگهداری صفحات در بخش‌های مختلف موتور هست. در نسخهٔ قبل هر بخش از موتور خودش می‌دونست که چطوری صفحات رو ذخیره کنه. توی نسخهٔ جدید، روش نگهداری صفحات در تمام بخش‌های موتور یکسان‌سازی شده و در نتیجه ایجاد تغییرات و همگام‌سازی بخش‌های مختلف بسیار راحت‌تر از قبل انجام می‌شه. نتیجه‌گیری اخلاقی این که این موضوع به ما کمک می‌کنه که بسیار سریع‌تر بتونیم تغییرات داده‌ای رو توی بخش‌های مختلف موتور اعمال کنیم.

در مورد الگوریتم‌های رتبه‌بندی نتایج توی این مدت خیلی کار کردیم. یکی از مهم‌ترین کارهایی که کردیم، این بوده که بر اساس جستجوهای کاربران توی این مدت، موتور رو به صورت ماشینی آموزش دادیم تا بتونه بهتر نتایج رو پیدا کنه (همونطور که می‌دونید، هر چقدر جستجوی کاربرا توی یه موتور جستجو بیشتر باشه، اون موتور بهتر می‌تونه خودش رو با جستجوهای کاربرا وفق بده). کارهای بسیاری در زمینهٔ رتبه‌بندی شروع کردیم که بعضیشون به نتیجه رسیدن و بقیه هنوز در حال انجام هستن. نکتهٔ مهمی که توی نسخهٔ جدید وجود داره اینه که همونطور که بالاتر گفتم، به علت تغییر معماری‌ای که داشتیم، تغییرات توی بخش‌های دیگه راحت‌تر و سریع‌تر خواهد بود. این نکته در مورد تغییرات توی الگوریتم‌های رتبه‌بندی هم صادقه و انتظار داریم که از این به بعد بسیار سریع‌تر بتونیم تغییرات الگوریتمی رو اعمال کنیم (مخصوصاً تغییراتی که نیاز به تغییر داده‌ها دارن).

بخش پاسخ هوشمند موتور هم دستخوش تغییرات زیادی شده. از جملهٔ این تغییرات، اینه که داده‌های این بخش خیلی به‌روزتر خواهد بود. همچنین در آینده ان‌شاءالله بخش‌های جدیدی به اون اضافه می‌شه.

جزئیات توی هر کدوم از این بخش‌ها فراوون هست، من فقط به گفتن کلیات بسنده کردم.

یکی از مشکلات اساسی‌ای که توی فرایند تبدیل نسخهٔ قدیم به جدید داشتیم، این بود که باید به صورت همزمان ۲ نسخه رو نگهداری می‌کردیم. در نتیجه تمام منابع مورد نیازمون رو باید ۲ برابر مصرف می‌کردیم: هم سخت‌افزار ۲ برابر باید مصرف می‌شد (یکی برای نسخهٔ قدیم که زیر بار بود و کاربرا داشتن ازش استفاده می‌کردن، یکی هم برای نسخهٔ جدید که باید هم عرض نسخهٔ قدیم آماده می‌شد)، هم کار نگهداری ۲ نسخه باید همزمان انجام می‌شد تا این فرایند انتقال به صورت کامل انجام بشه (البته پهنای باند رو ۲ برابر مصرف نمی‌کردیم، صفحات یک بار خزش می‌شدن و در هر ۲ نسخه به‌روزرسانی می‌شدن. این کار تا یه مدت انجام شد و بعد از اون دیگه نسخهٔ قدیم رو به‌روز نکردیم و فقط نسخهٔ جدید به‌روز می‌شد). الان که این فرایند نفسگیر تموم شده، می‌تونیم یه کم نفس بکشیم! چون توی این مدت از بعضی از سرورها در حد ۲۰۰٪ کار کشیدیم تا بتونیم این عملیات انتقال معماری رو انجام بدیم (منظور از ۲۰۰٪ اینه که ۲ برابر میزانی که براش در نظر گرفته بودیم و طراحی کرده بودیم). الان که این کار تموم شده، این سرورها تازه به مصرف معمولی خودشون برمی‌گردن.

البته این مسیر همچنان ادامه داره. هنوز کارهای فراوونی هست که باید انجام بدیم تا بتونیم یه موتور جستجوی خوب و در شأن کاربران ایرانی بسازیم. از شما کاربران عزیز هم تشکر می‌کنم که تا اینجا ما رو حمایت کردین، دلگرمی ما به حمایت کاربرامون هست.

ویرایش: به علت وجود یه مشکل فنی، تا دقایقی پیش مشکلی توی انتقال یوز به نسخهٔ جدید مشکلی به وجود اومده بود، و در نتیجه ممکنه توی این ۲۴ ساعت با یوز قدیمی کار کرده باشید. اگه هیچ تفاوتی بینشون ندیدید به این دلیل بوده! الان این مشکل برطرف شده و نسخهٔ جدید به صورت کامل در دسترس هست. از مشکل پیش اومده خیلی متأسفیم، امیدواریم دیگه از این مشکلا پیش نیاد


  • ۹۶/۰۷/۲۳
  • بها خاتم بخش

نظرات (۰)

هیچ نظری هنوز ثبت نشده است

ارسال نظر

ارسال نظر آزاد است، اما اگر قبلا در بیان ثبت نام کرده اید می توانید ابتدا وارد شوید.
شما میتوانید از این تگهای html استفاده کنید:
<b> یا <strong>، <em> یا <i>، <u>، <strike> یا <s>، <sup>، <sub>، <blockquote>، <code>، <pre>، <hr>، <br>، <p>، <a href="" title="">، <span style="">، <div align="">
تجدید کد امنیتی