فایل Robots.txt چیست و چگونه با ربات های گوگل صحبت کنیم؟

تاریخ انتشار: ۲۴ آبان ۱۴۰۴
زمان تقریبی مطالعه: ۱۳ دقیقه
https://www.pgtm.ir/s6tW/
فایل Robots.txt چیست و چگونه با ربات های گوگل صحبت کنیم؟
فایل Robots.txt چیست و چه نقشی در سئو دارد؟ با راهنمای کامل ما یاد بگیرید چگونه با دستورات Disallow، Allow و Sitemap به ربات‌های گوگل بگویید کدام صفحات را خزش کنند و بودجه خزش سایت خود را بهینه کنید.
تصور کنید وب‌سایت شما یک ساختمان بزرگ با اتاق‌های عمومی، خصوصی و در حال ساخت است. شما قطعاً نمی‌خواهید هر بازدیدکننده‌ای به تمام بخش‌ها، به‌خصوص اتاق‌های خصوصی یا انباری‌های نامرتب، دسترسی داشته باشد. در دنیای وب، ربات‌های موتور جستجو مانند گوگل (Googlebot) دقیقاً همان بازدیدکنندگان کنجکاوی هستند که می‌خواهند تمام گوشه و کنار سایت شما را بررسی و ایندکس کنند. اما چگونه می‌توانیم به این ربات‌ها بگوییم کدام درها باز و کدام درها بسته هستند؟ پاسخ در یک فایل متنی ساده اما بسیار قدرتمند نهفته است: فایل Robots.txt.
این فایل، اولین نقطه تماس ربات‌های جستجو با وب‌سایت شما و به نوعی، زبان مشترک بین شما و آن‌هاست. در این راهنمای جامع، یاد می‌گیریم که فایل Robots.txt چیست، چه نقشی در سئوی فنی دارد و چگونه با نوشتن چند دستور ساده، می‌توانیم به طور موثر با ربات‌های گوگل «صحبت» کرده و بودجه خزش (Crawl Budget) خود را هوشمندانه مدیریت کنیم.

فایل Robots.txt دقیقا چیست؟

فایل Robots.txt یک فایل متنی ساده است که در ریشه (Root) اصلی هاست وب‌سایت شما قرار می‌گیرد و به ربات‌های موتور جستجو (که به آن‌ها خزنده‌ها یا Crawlers هم گفته می‌شود) می‌گوید که کدام بخش‌ها یا صفحات سایت شما را نباید خزش (Crawl) و بررسی کنند.
نکته کلیدی این است که Robots.txt یک پروتکل پیشنهادی است، نه یک قانون اجباری. ربات‌های معتبر مانند Googlebot، Bingbot و ... به این دستورات احترام می‌گذارند، اما ربات‌های مخرب یا اسپمرها ممکن است آن را نادیده بگیرند. بنابراین، این فایل برای مدیریت دسترسی ربات‌های خوب طراحی شده، نه برای اهداف امنیتی.

چرا به فایل Robots.txt نیاز داریم؟ (نقش آن در سئو)

شاید فکر کنید بهتر است تمام صفحات سایت توسط گوگل بررسی شوند، اما استفاده هوشمندانه از Robots.txt مزایای مستقیمی برای سئوی سایت شما دارد:
  • مدیریت بودجه خزش (Crawl Budget): هر سایتی یک «بودجه خزش» مشخص از سمت گوگل دارد؛ یعنی تعداد صفحاتی که گوگل در یک بازه زمانی مشخص بررسی می‌کند. با استفاده از Robots.txt، شما به گوگل کمک می‌کنید تا این بودجه را روی صفحات مهم و ارزشمند شما متمرکز کند و وقت خود را برای خزش صفحات بی‌اهمیت (مانند صفحات ورود، نتایج جستجوی داخلی یا نسخه‌های چاپی) تلف نکند.
  • جلوگیری از ایندکس محتوای تکراری یا کم‌ارزش: شما می‌توانید از خزش صفحاتی که محتوای تکراری دارند (مانند نسخه‌های مختلف یک صفحه با پارامترهای URL متفاوت) یا صفحاتی که ارزش سئویی ندارند (مانند سبد خرید یا صفحات تشکر) جلوگیری کنید.
  • مسدود کردن دسترسی به فایل‌های حساس: می‌توانید دسترسی ربات‌ها به فایل‌های تصویری، PDF، اسکریپت‌ها یا فایل‌های مدیریتی را مسدود کنید.
  • مدیریت سایت‌های در حال توسعه: اگر یک بخش از سایت شما در حال بازطراحی است، می‌توانید موقتاً دسترسی ربات‌ها را به آن مسدود کنید تا نسخه ناقص آن ایندکس نشود.
  • مسدود کردن ربات‌های خاص (به‌جز ربات‌های اصلی): گاهی اوقات ربات‌های دیگری (غیر از گوگل) مانند ابزارهای سئو یا خزنده‌های متفرقه، ترافیک زیادی روی سرور شما ایجاد می‌کنند. با استفاده از Robots.txt می‌توانید دسترسی یک User-agent خاص را مسدود کرده و از منابع سرور خود محافظت کنید.
فایل robots.txt چیست

مهم‌ترین دستورات در فایل Robots.txt

یک فایل Robots.txt از چند دستور ساده تشکیل شده است. بیایید با مهم‌ترین آن‌ها آشنا شویم:

۱- User-agent

این دستور مشخص می‌کند که قوانین بعدی برای کدام ربات اعمال شود.
  • User-agent: *: ستاره به معنای «تمام ربات‌ها» است. این دستورالعمل برای همه خزنده‌ها اعمال می‌شود.
  • User-agent: Googlebot: این دستورالعمل فقط برای ربات اصلی گوگل اعمال می‌شود.
  • User-agent: Googlebot-Image: این دستورالعمل فقط برای ربات خزش تصاویر گوگل اعمال می‌شود.

۲- Disallow

این دستور به ربات‌ها می‌گوید که کدام مسیر یا صفحه را نباید خزش کنند.
  • Disallow: /: این دستور تمام سایت را مسدود می‌کند. (بسیار خطرناک! مراقب باشید)
  • Disallow: /private/: این دستور به ربات می‌گوید که هیچ صفحه‌ای را که با example.com/private/ شروع می‌شود، خزش نکند.
  • Disallow: /secret-page.html: این دستور فقط صفحه مشخص شده را مسدود می‌کند.

۲- Disallow

این دستور به ربات‌ها می‌گوید که کدام مسیر یا صفحه را نباید خزش کنند.

۳- Allow

این دستور که توسط ربات‌های بزرگ مانند گوگل پشتیبانی می‌شود، یک استثنا در یک قانون Disallow ایجاد می‌کند.
برای مثال، فرض کنید می‌خواهید تمام پوشه /media/ را مسدود کنید، اما می‌خواهید یک فایل خاص به نام logo.jpg در این پوشه قابل خزش باشد.
User-agent: *
Disallow: /media/
Allow: /media/logo.jpg
```

۴- Sitemap

این دستور محل فایل نقشه سایت (Sitemap) شما را به ربات‌ها نشان می‌دهد. قرار دادن این دستور در فایل Robots.txt یک روش عالی برای کمک به ربات‌ها جهت پیدا کردن سریع تمام URLهای مهم سایت شماست.
Sitemap: https://www.example.com/sitemap.xml

نمونه‌های کاربردی فایل Robots.txt

در ادامه چند مثال رایج و کاربردی برای درک بهتر این دستورات آورده شده است.

مثال ۱: یک فایل ساده و استاندارد

این فایل به تمام ربات‌ها اجازه دسترسی کامل به سایت را می‌دهد و فقط آدرس نقشه سایت را به آن‌ها اعلام می‌کند.
User-agent: *
Disallow:

Sitemap: https://www.example.com/sitemap.xml

مثال ۲: مسدود کردن پوشه ادمین وردپرس

این یک روش رایج برای جلوگیری از خزش صفحات ورود و مدیریت وردپرس است. 
نکته: فایل admin-ajax.php برای عملکردهای حیاتی سایت لازم است، بنابراین آن را Allow می‌کنیم.
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

مثال ۳: جلوگیری از خزش نتایج جستجوی داخلی

اگر سایت شما یک قابلیت جستجوی داخلی دارد، نتایج آن معمولاً صفحات کم‌ارزشی برای سئو هستند.
User-agent: *
Disallow: /?s=
Disallow: /search/

چگونه فایل Robots.txt را بسازیم و تست کنیم؟

ساخت و پیاده‌سازی این فایل بسیار ساده است و نیاز به دانش کدنویسی پیچیده‌ای ندارد. کافی است یک فایل متنی ساده ایجاد کرده، دستورات خود را در آن بنویسید و در محل درست روی سرور خود آپلود کنید. در نهایت، با استفاده از ابزارهای موجود، از صحت عملکرد آن مطمئن شوید. مراحل انجام این کار به شرح زیر است:
  • ایجاد فایل: یک فایل متنی ساده با نام robots.txt (تمام حروف کوچک) در یک ویرایشگر متن مانند Notepad یا VS Code بسازید.
  • نوشتن دستورات: دستورات خود را بر اساس نیازتان در فایل بنویسید.
  • آپلود فایل: فایل را در پوشه ریشه (Root) اصلی وب‌سایت خود (public_html یا www) آپلود کنید. پس از آپلود، باید از طریق آدرس https://www.yourdomain.com/robots.txt قابل دسترسی باشد.
  • تست فایل: بهترین ابزار برای تست، Google Search Console است. در سرچ کنسول، ابزاری به نام “Robots.txt Tester” وجود دارد که به شما اجازه می‌دهد فایل خود را تست کرده و ببینید آیا گوگل آن را به درستی درک می‌کند یا خیر.
آموزش سایخت فایل robots.txt

اشتباهات رایج در استفاده از Robots.txt

با وجود سادگی، یک اشتباه کوچک در فایل Robots.txt می‌تواند به سئوی سایت شما آسیب جدی بزند. بسیاری از وبمسترها، به‌خصوص در ابتدای کار، دچار سوءتفاهم‌هایی در مورد عملکرد این فایل می‌شوند. آشنایی با این اشتباهات رایج به شما کمک می‌کند تا با اطمینان بیشتری از این ابزار قدرتمند استفاده کنید:
  • استفاده از آن برای Noindex کردن: این بزرگ‌ترین اشتباه است. دستور Disallow فقط از خزش جلوگیری می‌کند، نه از ایندکس. اگر صفحه‌ای قبلاً ایندکس شده باشد و شما آن را Disallow کنید، ممکن است همچنان در نتایج گوگل باقی بماند. این موضوع به‌ویژه در مدیریت «زامبی پیج‌ها» اهمیت دارد؛ برای حذف قطعی آن‌ها، باید از تگ noindex استفاده کرده و اجازه خزش آن را به ربات‌ها بدهید.
  • مسدود کردن فایل‌های CSS و JS: هرگز فایل‌های CSS و JavaScript قالب خود را مسدود نکنید. گوگل برای درک کامل ظاهر و عملکرد سایت شما (رندر کردن صفحه) نیاز به دسترسی به این فایل‌ها دارد. مسدود کردن آن‌ها می‌تواند منجر به تحلیل نادرست صفحه و افت رتبه شود.
  • خطای تایپی: نام فایل (robots.txt) و دستورات (User-agent, Disallow) به حروف بزرگ و کوچک حساس هستند. یک خطای تایپی کوچک می‌تواند کل فایل را بی‌اثر کرده یا بدتر از آن، باعث مسدود شدن کل سایت شود.
  • قرار دادن فایل در پوشه اشتباه: فایل Robots.txt فقط و فقط باید در پوشه ریشه اصلی دامنه قرار گیرد. قرار دادن آن در هر زیرپوشه‌ای باعث می‌شود ربات‌ها آن را پیدا نکنند.

جمع‌بندی

فایل Robots.txt شاید در ظاهر ساده به نظر برسد، اما در واقع یکی از مهم‌ترین ابزارهای شما در جعبه ابزار سئوی فنی است. این فایل به شما قدرت می‌دهد تا به طور مستقیم با ربات‌های گوگل صحبت کرده، آن‌ها را به سمت مهم‌ترین بخش‌های سایت خود هدایت کنید و از هدر رفتن بودجه خزش جلوگیری نمایید. یادگیری و استفاده صحیح از آن، یک سرمایه‌گذاری کوچک با بازدهی بزرگ در سلامت بلندمدت سئوی سایت شماست. اگر در مورد پیاده‌سازی صحیح این فایل یا سایر جنبه‌های سئوی فنی نیاز به مشاوره دارید، کارشناسان ما در پینگوتیم آماده پاسخگویی به شما هستند.
دریافت مشاوره رایگان سئو
loading