مشاهده ویدیو
یادش بخیر، این فیلم برای دورانِ کودکی یوز بود، اون موقع حدود یک میلیارد صفحه از وب فارسی رو داشتیم. ولی الان یک یوزِ تازه نفس در راهه که تا این لحظه بیش از ۳۰ میلیارد از صفحات وب فارسی رو تحت پوشش قرار داده. منتظر خبرهای جدید ما باشید | یوزنامه – وبلاگ موتور جستجو یوز yooz.ir
سلام!
خیلی خوشحالم که به اطلاع برسونم: نسخهٔ جدید موتور جستجوی یوز از امروز در دسترس کاربران قرار گرفت. این نسخه حاصل بیش از یک سال کار کل تیم یوز در بخشهای مختلف (از جمله واسط کاربری، خزشگر، تحلیل صفحات، الگوریتمهای رتبهبندی، شاخصگذار و …) هست. اینجا یه اشارهٔ مختصری به تغییرات اصلی انجام شده توی این نسخه میکنم.
در مورد نسخهٔ جدید واسط کاربریمون، حسن جان اینجا توضیح کافی داده: http://blog.yooz.ir/?q=node/34
ما توی این مدت که موتور رو در معرض استفادهٔ کاربرا قرار دادیم، درخواستهای بسیاری از وبمسترها داشتیم مبنی بر خزش کردن سایتشون (البته خزشگر ما به صورت خودکار سایتها و صفحات رو کشف میکنه). توی این نسخه، ما خزشمون رو از نو و با دید متفاوتی شروع کردیم. در نتیجه این نسخه دارای دادههای بهروزتر خواهد بود (میتونید تعداد صفحاتی که از سایت شما خزش و شاخصگذاری شده رو با عملگر :site یا سایت: بررسی کنید، به عنوان مثال سایت:yooz.ir). نکتهٔ دیگه این که صفحاتی که از وب پاک شدن، به محض کشف توسط خزشگر ما، از نمایه (index) هم حذف میشن و در نتیجه خروجی جستجو، تر و تمیزتر هست.
تغییر مهم دیگهای که داشتیم، توی تحلیل صفحات هست. توی این نسخه تحلیلگر صفحات رو از نو نوشتیم (به علت تغییرات گستردهای که باید توش انجام میشد). نسخهٔ قدیم تحلیلگر صفحات، اشکالات ریز بسیاری داشت، که هر کدوم از این اشکالات باعث میشد برخی از صفحات درست تحلیل نشن و در نتیجه درست شاخصگذاری نمیشدن و توی جستجو هم توی خروجی نمیومدن. در نتیجه توی نسخهٔ جدید، صفحات با دادهٔ صحیحتری تحلیل میشن و در نتیجه به طور کلی نتایج جستجو بهبود پیدا کرده. در ضمن جالبه بدونید که سرعت نسخهٔ جدید تحلیلگر صفحاتمون چندین برابر نسخهٔ قبلی هست: الان به طور متوسط، هر صفحه در عرض کمتر از ۴۰ میلیثانیه (یا ۰.۰۴ ثانیه) تحلیل میشه.
یکی دیگه از تغییرات اساسیای که داشتیم، تغییر معماری نحوهٔ نگهداری صفحات در بخشهای مختلف موتور هست. در نسخهٔ قبل هر بخش از موتور خودش میدونست که چطوری صفحات رو ذخیره کنه. توی نسخهٔ جدید، روش نگهداری صفحات در تمام بخشهای موتور یکسانسازی شده و در نتیجه ایجاد تغییرات و همگامسازی بخشهای مختلف بسیار راحتتر از قبل انجام میشه. نتیجهگیری اخلاقی این که این موضوع به ما کمک میکنه که بسیار سریعتر بتونیم تغییرات دادهای رو توی بخشهای مختلف موتور اعمال کنیم.
در مورد الگوریتمهای رتبهبندی نتایج توی این مدت خیلی کار کردیم. یکی از مهمترین کارهایی که کردیم، این بوده که بر اساس جستجوهای کاربران توی این مدت، موتور رو به صورت ماشینی آموزش دادیم تا بتونه بهتر نتایج رو پیدا کنه (همونطور که میدونید، هر چقدر جستجوی کاربرا توی یه موتور جستجو بیشتر باشه، اون موتور بهتر میتونه خودش رو با جستجوهای کاربرا وفق بده). کارهای بسیاری در زمینهٔ رتبهبندی شروع کردیم که بعضیشون به نتیجه رسیدن و بقیه هنوز در حال انجام هستن. نکتهٔ مهمی که توی نسخهٔ جدید وجود داره اینه که همونطور که بالاتر گفتم، به علت تغییر معماریای که داشتیم، تغییرات توی بخشهای دیگه راحتتر و سریعتر خواهد بود. این نکته در مورد تغییرات توی الگوریتمهای رتبهبندی هم صادقه و انتظار داریم که از این به بعد بسیار سریعتر بتونیم تغییرات الگوریتمی رو اعمال کنیم (مخصوصاً تغییراتی که نیاز به تغییر دادهها دارن).
بخش پاسخ هوشمند موتور هم دستخوش تغییرات زیادی شده. از جملهٔ این تغییرات، اینه که دادههای این بخش خیلی بهروزتر خواهد بود. همچنین در آینده انشاءالله بخشهای جدیدی به اون اضافه میشه.
جزئیات توی هر کدوم از این بخشها فراوون هست، من فقط به گفتن کلیات بسنده کردم.
یکی از مشکلات اساسیای که توی فرایند تبدیل نسخهٔ قدیم به جدید داشتیم، این بود که باید به صورت همزمان ۲ نسخه رو نگهداری میکردیم. در نتیجه تمام منابع مورد نیازمون رو باید ۲ برابر مصرف میکردیم: هم سختافزار ۲ برابر باید مصرف میشد (یکی برای نسخهٔ قدیم که زیر بار بود و کاربرا داشتن ازش استفاده میکردن، یکی هم برای نسخهٔ جدید که باید هم عرض نسخهٔ قدیم آماده میشد)، هم کار نگهداری ۲ نسخه باید همزمان انجام میشد تا این فرایند انتقال به صورت کامل انجام بشه (البته پهنای باند رو ۲ برابر مصرف نمیکردیم، صفحات یک بار خزش میشدن و در هر ۲ نسخه بهروزرسانی میشدن. این کار تا یه مدت انجام شد و بعد از اون دیگه نسخهٔ قدیم رو بهروز نکردیم و فقط نسخهٔ جدید بهروز میشد). الان که این فرایند نفسگیر تموم شده، میتونیم یه کم نفس بکشیم! چون توی این مدت از بعضی از سرورها در حد ۲۰۰٪ کار کشیدیم تا بتونیم این عملیات انتقال معماری رو انجام بدیم (منظور از ۲۰۰٪ اینه که ۲ برابر میزانی که براش در نظر گرفته بودیم و طراحی کرده بودیم). الان که این کار تموم شده، این سرورها تازه به مصرف معمولی خودشون برمیگردن.
البته این مسیر همچنان ادامه داره. هنوز کارهای فراوونی هست که باید انجام بدیم تا بتونیم یه موتور جستجوی خوب و در شأن کاربران ایرانی بسازیم. از شما کاربران عزیز هم تشکر میکنم که تا اینجا ما رو حمایت کردین، دلگرمی ما به حمایت کاربرامون هست.
ویرایش: به علت وجود یه مشکل فنی، تا دقایقی پیش مشکلی توی انتقال یوز به نسخهٔ جدید مشکلی به وجود اومده بود، و در نتیجه ممکنه توی این ۲۴ ساعت با یوز قدیمی کار کرده باشید. اگه هیچ تفاوتی بینشون ندیدید به این دلیل بوده! الان این مشکل برطرف شده و نسخهٔ جدید به صورت کامل در دسترس هست. از مشکل پیش اومده خیلی متأسفیم، امیدواریم دیگه از این مشکلا پیش نیاد
- ۹۶/۰۷/۲۳