Robots.txt หนึ่งในวิธีการทำ Search Engine Optimization (SEO) ที่ช่วยให้เว็บไซต์ของเราติดอันดับการค้นหาของ Google เพื่อให้คนเข้าถึงได้มากขึ้น เราจึงจะมาทำความรู้จัก ประโยชน์ และวิธีการใช้ไฟล์ robots.txt
Robots.txt คือไฟล์อะไร
Robots.txt เป็น plain text file ที่อยู่ใน Root Directory ของเว็บไซต์เรา มีหน้าที่บอกกับบอท ai ว่าข้อมูลส่วนไหนให้นำไปใช้ (indexing) และข้อมูลส่วนไหนไม่ต้องการให้นำไปใช้ (crawling) หรือพูดง่ายๆก็คือป้ายกำกับที่เอาไว้บอก ai ให้ใช้ข้อมูลได้ตามที่เรากำหนดไว้เท่านั้น
แต่ก็ใช่ว่าทุกคนจะทำตามกฏที่เราตั้งไว้ robots.txt ใช้งานร่วมกับ web crawler ซึ่ง googlebot, bingbot และอีกหลายๆตัวยังทำตามกฏของเราอยู่ แต่ก็มีบางตัวที่ไม่ทำ เช่น email scrapers
สามารถดูไฟล์ robots.txt ได้โดยการพิมพ์ /robots.txt ตามหลัง url ของเว็บไซต์ https://v89infinity.com/robots.txt

ความสำคัญของ Robots.txt ต่อ SEO
“แล้วทำไมเราไม่ให้เข้าถึงข้อมูลทั้งหมดไปเลยล่ะ” ถ้าจะว่าแบบนั้นมันก็ได้ แต่มันจะดีกว่ามั้ยถ้าเราสามารถทำให้มันมีประสิทธิภาพได้มากกว่านั้น การจัดการให้ crawler ให้เข้าถึงข้อมูลในเว็บเราแบบเป็นระบบก็จะช่วยให้การทำ SEO มีประสิทธิภาพมากขึ้นด้วย
การจัดการ crawl budget – search engine มีทรัพยากรที่จำกัด ทุกครั้งที่ web crawler ทำการเข้าอ่านข้อมูลในแต่ละเว็บก็จะต้องใช้ทรัพยากรหรือที่เรียกว่า crawl budget ซึ่งเราต้องบริหารจัดการให้ใช้ทรัพยากรที่มีจำกัดได้ประโยชน์สูงสุด ดังนั้นการที่เราให้ตัว crawler สามารถเข้าถึงได้ทุกอย่างในเว็บเราจึงเป็นการเสียทรัพยากรโดยใช่เหตุ จากแทนที่เราจะโฟกัสไปที่เนื้อหาที่มีความสำคัญกับต้องเสียทรัพยากรไปกับเนื้อหาอื่นๆที่ไม่สำคัญซึ่งอาจทำให้ตัว crawl budget หมดก่อน
ป้องกันเนื้อหาซ้ำ – เกิดที่เนื้อหาซ้ำกันก็เป็นหนึ่งในปัญหาของการทำ SEO เนื่องจาก urls ที่คล้ายกันอาจจะทำให้ search engine เกิดการสับสนกับข้อมูล ดังนั้นเราจึงนำ robots.txt มาช่วยแก้ปัญหาที่จะเกิดขึ้นได้

ความเป็นส่วนตัวของข้อมูล
ในหลายๆเว็บไซต์ก็คงจะมีส่วนของเนื้อหาหรือข้อมูลใดๆที่ไม่สามารถเปิดเผยกับสาธารณะได้ เช่น
- Admin login pages (/wp-admin/)
- ไฟล์สำคัญ เช่น PDFs หรือ lead magnets
การปิดกั้นหน้าพวกนี้ไว้ด้วย robots.txt จะทำให้บอทไม่ทำการเข้าถึงข้อมูลเหล่านั้น
Syntax ภาษาที่ใช้เขียน
ไฟล์ robots.txt ใช้คำสั่งง่ายๆที่เรียกว่า directives และ syntax ก็เขียนได้แบบตรงตัวเลยแค่ต้องระวังเรื่องตำแหน่งของตัวอักษร หากคลาดเคลื่อนนิดเดียวสามารถทำให้เกิดข้อผิดพลาดได้
- User-Agent คือ คำสั่งที่ใช้สื่อสารกับบอทโดยตรง ว่า User-agent ต้องการใช้ Robots.txt อย่างไร
- Disallow คือ คำสั่งที่ใช้เพื่อบอกบอทว่า URLs ที่มีคำสั่งนี้ไม่ควรถูกเข้าถึง หรือ Crawling
- Allow คือ คำสั่งที่ใช้บอก Search Engine Robots ว่าส่วนไหนของเว็บไซต์ควรถูกค้นหา โดยใช้เครื่องหมาย “/” เพื่อระบุหน้าเว็บไซต์หรือโฟลเดอร์ที่ต้องการให้ค้นหา
- Sitemap คือ คำสั่งที่ใช้บอก Search Engine Robots ว่ามีไฟล์ Sitemap อยู่ที่ไหน เพื่อช่วยให้ Search Engine Robots สามารถเข้าถึงและดาวน์โหลดไฟล์ Sitemap ได้อย่างง่ายดาย
ตัวอย่างการเขียนไฟล์ robots.txt
คำสั่งไม่อนุญาตให้ Search Engine ตัวไหนก็ตามเข้ามาเก็บข้อมูลทั้งเว็บไซต์
| User-agent:*Disallow: / |
คำสั่งไม่อนุญาตให้ Search Engine ของ Google เข้าถึงโฟลเดอร์ ชื่อ private
| User-agent: GooglebotDisallow: /private/ |
คำสั่งอนุญาตให้ Search Engine เก็บข้อมูลทุกส่วนของเว็บไซต์
| User-agent:*Allow: / |
อนุญาตให้ Search Engine ทั้งหมด ยกเว้นตัวใดตัวหนึ่ง
| User-agent: UnnecessarybotDisallow: /User-agent: *Allow: |
ไม่อนุญาตให้เก็บข้อมูลไฟล์บางประเภท เช่น ไฟล์ .gif
| User-agent: GooglebotDisallow:/*.gif |
ตัวอักษรพิเศษที่สามารถใช้ได้
เพิ่มความยืดยุ่นในการใช้งานให้กับไฟล์ robots.txt ด้วยอักษรพิเศษ
- asterisk (*) – อักษรที่หมายถึง ทั้งหมด เช่น Disallow: /private/*.html คือการบล็อคไฟล์ html ที่อยู่ใน private ทั้งหมด
- The dollar sign ($) – ใช้บอกว่าเป็นจุดสิ้นสุดของ URL มีประโยชน์เวลาที่ต้องการการทำงานที่เจาะจง เช่น Disallow: /downloads/$ จะบล็อกเฉพาะหน้า /downloads/ เท่านั้น แต่ไม่บล็อกไฟล์ข้างในโฟลเดอร์ เช่น /downloads/file.zip, Disallow: /*.pdf$ จะบล็อก URL ทุกอันที่ลงท้ายด้วย .pdf เป๊ะๆ
วิธีสร้างไฟล์ Robots.txt
วิธีแบบ Manual ใช้ Text Editor
สามารถสร้างไฟล์ robots.txt ด้วย text editor ทั่วไปได้เลย เช่น Notepad (Windows) หรือ TextEdit (Mac)
- สร้างไฟล์ใหม่
- เขียนคำสั่งของคุณ เริ่มจากง่ายๆ ก่อน จุดเริ่มต้นที่ดีสำหรับเว็บไซต์ส่วนใหญ่คือ
| User-agent: *Disallow: /wp-admin/Sitemap: https://www.example.com/sitemap.xml |
- เซฟไฟล์โดยตั้งชื่อให้ตรงเป๊ะว่า robots.txt ระวังอย่าให้ text editor ใส่นามสกุลซ้ำเป็น .txt.txt ถ้าใช้ TextEdit บน Mac ต้องไปที่เมนู “Format” > “Make Plain Text” ก่อน
- อัปโหลดไฟล์ไปไว้ที่ root directory ของเว็บไซต์ ซึ่งเป็นโฟลเดอร์หลักที่เก็บไฟล์ของเว็บ (ชื่อ public_html, www หรือชื่อโดเมน) ปกติจะใช้โปรแกรม FTP (เช่น FileZilla) หรือ File Manager ใน control panel ของ hosting (เช่น cPanel) ในการอัปโหลด
ข้อ “ห้าม” ของ Robots.txt
ข้อควรระวังของการนำไปใช้และจุดประสงค์การนำไปใช้
- ใช้เพื่อเพิ่มความปลอดภัย – ไฟล์ robots.txt เป็นไฟล์สาธารณะ ห้ามใช้มัน “ซ่อน” โฟลเดอร์ที่มีข้อมูลละเอียดอ่อนเด็ดขาด
- คำสั่ง noindex – เมื่อก่อนเราใช้คำสั่ง noindex ในไฟล์ robots.txt ได้ แต่ Google ประกาศหยุดรองรับอย่างเป็นทางการตั้งแต่ปี 2019 ถ้าอยากปิดหน้าไหนไว้ไม่ให้โดน indexing ให้ใช้ noindex meta tag ในส่วน <head> ของหน้า HTML หรือใช้ X-Robots-Tag ใน HTTP header แทน
- บล็อกไฟล์ CSS และ JS – อย่าประหยัด crawl budget โดยการไปบล็อค css กับ js เพราะ google จะ render หน้าเว็บเพื่อทำความเข้าใจเนื้อหาและเลย์เอาต์ เหมือนเบราว์เซอร์ของผู้ใช้ทั่วไปทำ ถ้าบล็อก css กับ js google จะมองเห็นหน้าเว็บไม่ถูกต้อง อาจส่งผลให้อันดับ SEO ของคุณตกหนัก เพราะ google อาจเห็นเป็นหน้าที่พังและใช้งานไม่ได้
- เขียนผิดไวยากรณ์ – การพิมพ์ผิดหรือพิมพ์ตกหรือพิมพ์เล็ก-พิมพ์ใหญ่ไม่ถูกต้องไปสักตัวอาจจะทำให้เกิดการทำงานผิดพลาดได้
- วางไฟล์ผิดที่ – ไฟล์ต้องอยู่ใน root directory ของโฮสต์ที่ต้องการให้คำสั่งมีผล ถ้าวางใน subdirectory (เช่น example.com/pages/robots.txt) จะถูกข้ามไปเลย
- Subdomain ต้องมีไฟล์ของตัวเอง – ในแต่ละ subdomain ไม่สามารถใช้ไฟล์ร่วมกันได้ https://example.com/robots.txt ใช้ร่วมกับ https://blog.example.com ไม่ได้ แต่ละ subdomain ถูกมองเป็นเว็บไซต์แยกกัน ต้องมีไฟล์ robots.txt ของตัวเองที่ root ของแต่ละ subdomain
วิธีทดสอบไฟล์ Robots.txt
หลังจากที่สร้างไฟล์และเขียนเรียบร้อยก็มาลองทดสอบก่อนที่จะนำไปใช้จริง
ทดสอบโดย Robots.txt Tester ของ Google Search Console
- เข้าไปที่บัญชี Google Search Console ของคุณ
- ใต้หัวข้อ “Legacy tools and reports” มองหา “Robots.txt Tester”
- เครื่องมือจะแสดงเวอร์ชันปัจจุบันของไฟล์ robots.txt ที่ใช้งานอยู่ สามารถวางโค้ดใหม่ที่แก้ไขแล้วลงในช่องข้อความเพื่อทดสอบ
- จากนั้นใส่ URL เฉพาะจากเว็บไซต์ของคุณเพื่อเช็คว่าการทำงานถูกต้องตามที่เราเขียนไว้
สรุปโดยภาพรวมของไฟล์ Robots.txt
เพื่อที่จะเพิ่มการมองเห็นให้กับเว็บไซต์ ให้เว็บไซต์ของเราเตะตา ai และเข้ามานำเนื้อหาของเราไปอ้างอิงให้ผู้อื่นมากขึ้น คือการทำ SEO และหนึ่งในวิธีการที่สำคัญและมีประสิทธิภาพคือการเพิ่มไฟล์ robots.txt เข้าไป
ไฟล์ robots.txt เหมือนกับไฟล์ที่เราเอาไว้สื่อสารกับ search engine ทำให้เว็บไซต์ถูก crawl อย่างมีประสิทธิภาพเพื่อให้มันนำเนื้อหาที่สำคัญและดีที่สุดในเว็บไซต์ไปใช้อ้างอิง แค่ต้องระวังเรื่องการเขียนที่ต้องการความเป๊ะมากๆ ระวังเรื่องพิมพ์ใหญ่-พิมพ์เล็กและต้องทดสอบใช้ก่อนนำไปใช้จริง
ในปัจจุบันมีเครื่องมือใหม่ๆหลายตัวที่ช่วยให้การทำง่ายขึ้น การที่ได้รู้ได้ลงมือทำก่อนก็สร้างความได้เปรียบในหลายๆแง่มุมแล้ว
เรียบเรียง ภูดิศ โภคามาตย์
อ้างอิง
https://elementor.com/blog/what-is-robots-txt/
https://www.cloudflare.com/learning/bots/what-is-robots-txt/








