ลองจินตนาการว่าคุณมีพนักงานที่เก่งมาก เขียนโค้ดได้ วิเคราะห์ข้อมูลได้ และทำงานได้ตลอด 24 ชั่วโมง แต่มีปัญหาอยู่อย่างหนึ่ง ทุกครั้งที่เขาเลิกงานและกลับมาเริ่มงานใหม่ เขาจะลืมหมดว่าก่อนหน้านี้ทำอะไรไว้บ้าง ฟังดูไม่น่าเชื่อ แต่จริงๆ แล้วนี่คือปัญหาที่ AI Agent หลายตัวกำลังเจออยู่ในปัจจุบัน รวมถึง Claude ของ Anthropic ด้วย

ทำไม AI ถึงทำงานยาวๆ แล้วมีปัญหา?

แม้ AI รุ่นใหม่จะฉลาดขึ้นมาก แต่การทำงานของมันยังอาศัยสิ่งที่เรียกว่า Context Window หรือพื้นที่ความจำชั่วคราวเมื่อการสนทนาหรือ Session จบลง ข้อมูลจำนวนมากที่ AI เคยเห็นก็จะหายไป ทำให้ Agent ตัวใหม่ที่เข้ามาทำงานต่อ ต้องใช้เวลาทำความเข้าใจโปรเจกต์ใหม่แทบทั้งหมดทีม Anthropic ทดลองให้ Claude Opus 4.5 สร้างเว็บแอปเลียนแบบ claude.ai ตั้งแต่ต้นจนจบ และปล่อยให้ทำงานต่อเนื่องข้ามหลาย Session

ผลลัพธ์ที่ได้คือ Agent มักเจอปัญหาซ้ำๆ อยู่ 2 แบบ

1. พยายามทำทุกอย่างพร้อมกัน

Claude มักเริ่มต้นด้วยความทะเยอทะยานสูง พยายามสร้างหลายฟีเจอร์ในครั้งเดียวแต่เมื่อ Context เต็มหรือ Session จบลงกลางทาง งานจำนวนมากจึงค้างอยู่ในสภาพไม่สมบูรณ์ ไม่มีบันทึก ไม่มีคำอธิบาย และไม่มีใครรู้ว่าควรทำต่อจากตรงไหนเมื่อ Agent ตัวถัดไปเข้ามา จึงต้องเสียเวลาตามแกะรอยงานเก่าแทนที่จะสร้างฟีเจอร์ใหม่

2. คิดว่างานเสร็จแล้วทั้งที่ยังไม่เสร็จ

อีกปัญหาหนึ่งคือ Agent มักเห็นว่าโปรเจกต์มีโค้ดจำนวนมากแล้ว จึงสรุปว่างานใกล้เสร็จหรือเสร็จสมบูรณ์แล้วแต่ความจริงยังมีฟีเจอร์สำคัญอีกหลายส่วนที่ยังไม่ได้พัฒนาเลย

Anthropic แก้ปัญหานี้อย่างไร?

ทีมวิจัยย้อนกลับไปดูวิธีทำงานของวิศวกรซอฟต์แวร์จริงๆเมื่อคนหนึ่งจะส่งงานให้อีกคน เขามักจะทำสิ่งเหล่านี้ เขียนบันทึกความคืบหน้า,Commit โค้ดพร้อมข้อความอธิบาย,จัดทำเอกสารประกอบ,ตรวจสอบระบบก่อนส่งต่อ Anthropic จึงสร้างระบบขึ้นมา เพื่อให้ AI ส่งต่องานระหว่าง Session ได้เหมือนทีมวิศวกรจริง

เบื้องหลังระบบที่ช่วยให้ Claude ทำงานต่อจากเดิมได้ 

ก่อนที่ Claude จะเริ่มพัฒนาโปรเจกต์จริง Anthropic ได้สร้าง Agent พิเศษที่เรียกว่า Initializer Agent ขึ้นมาทำหน้าที่เตรียมทุกอย่างให้พร้อม เปรียบเสมือนหัวหน้าทีมที่เข้ามาจัดระเบียบงานก่อนส่งต่อให้ทีมพัฒนาAgent ตัวนี้จะสร้างไฟล์และเครื่องมือสำคัญหลายอย่างเพื่อช่วยให้ Agent รุ่นถัดไปสามารถเริ่มงานได้ทันทีโดยไม่ต้องเสียเวลาทำความเข้าใจระบบใหม่ทั้งหมด หนึ่งในนั้นคือไฟล์ init.sh ซึ่งเป็นสคริปต์สำหรับเปิดระบบและ Development Server ทำให้ Agent ที่เข้ามาทำงานต่อสามารถรันโปรเจกต์ได้ทันที โดยไม่ต้องคาดเดาว่าควรเริ่มต้นอย่างไรหรือต้องใช้คำสั่งอะไรบ้าง

นอกจากนี้ยังมีไฟล์ feature_list.json ที่ทำหน้าที่เป็นรายการฟีเจอร์ทั้งหมดของโปรเจกต์ โดยแต่ละฟีเจอร์จะถูกกำหนดสถานะเริ่มต้นเป็น “passes”: false เพื่อบอกว่างานส่วนนั้นยังไม่เสร็จสมบูรณ์ จนกว่าจะได้รับการพัฒนาและผ่านการทดสอบจริง ในการทดลองสร้างระบบเลียนแบบ claude.ai ทีม Anthropic ระบุฟีเจอร์เอาไว้มากกว่า 200 รายการ ทำให้ Agent สามารถตรวจสอบได้ตลอดเวลาว่ายังมีงานส่วนใดเหลืออยู่บ้าง

อีกส่วนสำคัญคือไฟล์ claude-progress.txt ซึ่งทำหน้าที่คล้ายสมุดบันทึกประจำวันของโปรเจกต์ ภายในจะเก็บรายละเอียดเกี่ยวกับสิ่งที่ Agent แต่ละ Session ได้ทำไปแล้ว ปัญหาที่พบ และงานที่ควรทำต่อ ช่วยให้ Agent ตัวใหม่สามารถอ่านข้อมูลและสานต่องานได้ทันที โดยไม่ต้องเสียเวลาไล่ดูโค้ดทั้งหมดตั้งแต่ต้น

Anthropic ยังให้ความสำคัญกับการจัดเก็บประวัติการพัฒนา จึงสร้าง Git Repository ตั้งแต่เริ่มต้นโปรเจกต์ เพื่อบันทึกทุกการเปลี่ยนแปลงที่เกิดขึ้น ทำให้สามารถย้อนกลับไปตรวจสอบประวัติการทำงาน ดูความคืบหน้า หรือกู้คืนโค้ดในกรณีที่เกิดข้อผิดพลาดได้อย่างมีประสิทธิภาพ สิ่งที่น่าสนใจคือทีมวิจัยเลือกใช้ไฟล์ในรูปแบบ JSON แทน Markdown สำหรับข้อมูลสำคัญหลายส่วน เนื่องจากพบว่า Claude มีแนวโน้มแก้ไข ลบ หรือเปลี่ยนแปลงข้อมูลในไฟล์ Markdown โดยไม่ตั้งใจมากกว่า ขณะที่ไฟล์ JSON มีโครงสร้างที่ชัดเจนและเป็นระบบ ทำให้ Agent สามารถรักษาความถูกต้องของข้อมูลได้ดีกว่าเมื่อทำงานต่อเนื่องข้ามหลาย Session

เมื่อ AI เริ่มลงมือพัฒนาโปรเจกต์จริง 

เมื่อ Initializer Agent เตรียมสภาพแวดล้อมทุกอย่างเรียบร้อยแล้ว หน้าที่ต่อจากนั้นจะตกเป็นของ Coding Agent ซึ่งเป็น Agent ที่รับผิดชอบการพัฒนาโปรเจกต์จริงทีละขั้นตอน โดย Anthropic ออกแบบกระบวนการทำงานของ Agent กลุ่มนี้ให้คล้ายกับวิศวกรซอฟต์แวร์ที่เข้ามารับงานต่อจากเพื่อนร่วมทีมทุกครั้งที่เริ่ม Session ใหม่ Coding Agent จะไม่รีบลงมือเขียนโค้ดทันที แต่จะเริ่มจากการสำรวจสภาพแวดล้อมก่อน ตรวจสอบว่าตัวเองกำลังอยู่ในโฟลเดอร์ใด อ่านบันทึกความคืบหน้าจาก Session ก่อนหน้า ตรวจสอบประวัติการเปลี่ยนแปลงใน Git และดูรายการฟีเจอร์ที่ยังทำไม่เสร็จ เพื่อให้เข้าใจสถานะล่าสุดของโปรเจกต์ จากนั้นจึงเปิดระบบและทดสอบฟังก์ชันหลักของแอปพลิเคชัน เพื่อยืนยันว่าระบบยังทำงานได้ตามปกติก่อนเริ่มพัฒนาฟีเจอร์ใหม่

ระหว่างการทำงาน Anthropic กำหนดกฎสำคัญเอาไว้ข้อหนึ่ง คือ Agent ต้องโฟกัสกับงานเพียงฟีเจอร์เดียวในแต่ละรอบการทำงาน ไม่ควรกระโดดไปทำหลายอย่างพร้อมกัน เพราะจากการทดลองพบว่าเมื่อ Agent พยายามจัดการหลายฟีเจอร์ในเวลาเดียวกัน โอกาสที่จะสับสน หลงทาง หรือลืมรายละเอียดของงานจะเพิ่มสูงขึ้นอย่างมาก การทำงานแบบทีละขั้นตอนจึงช่วยให้คุณภาพของงานและความต่อเนื่องของโปรเจกต์ดีขึ้นอย่างชัดเจน

เมื่อใกล้จบ Session Agent จะต้องสรุปสิ่งที่ทำเสร็จแล้วอย่างเป็นระบบ โดยเริ่มจาก Commit โค้ดทั้งหมดเข้าสู่ Git พร้อมบันทึกข้อความอธิบายการเปลี่ยนแปลง จากนั้นอัปเดตบันทึกความคืบหน้าเพื่อให้ Agent รุ่นถัดไปสามารถรับช่วงต่อได้ทันที และที่สำคัญ ฟีเจอร์ใดจะถูกเปลี่ยนสถานะเป็น “passes”: true ได้ก็ต่อเมื่อผ่านการทดสอบจริงเรียบร้อยแล้วเท่านั้น แนวทางนี้ช่วยลดปัญหาที่ Agent เข้าใจผิดว่างานเสร็จสมบูรณ์ ทั้งที่ในความเป็นจริงยังมีข้อผิดพลาดหรือส่วนที่ต้องปรับปรุงเหลืออยู่

เรื่องที่ทีมค้นพบเกี่ยวกับการทดสอบ

ปัญหาอีกอย่างคือ AI มักเชื่อว่าฟีเจอร์ใช้งานได้ ทั้งที่ไม่เคยลองใช้งานจริงหลายครั้ง Agent ทดสอบแค่ Unit Test หรือส่งคำสั่ง API แล้วคิดว่าระบบสมบูรณ์ Anthropic จึงให้ Claude ใช้งาน Browser Automation ผ่าน Puppeteer แทนที่จะดูแค่โค้ด AI ต้องทำตัวเหมือนผู้ใช้จริง

  • คลิกปุ่ม
  • กรอกฟอร์ม
  • เปิดหน้าเว็บ
  • ลองใช้งานฟังก์ชันต่างๆ

ผลคือพบข้อผิดพลาดจำนวนมากที่ไม่สามารถเห็นได้จากโค้ดเพียงอย่างเดียว

สิ่งที่น่าสนใจต่อจากนี้

Anthropic มองว่านี่อาจเป็นเพียงจุดเริ่มต้น ในอนาคต Agent อาจไม่ได้ทำงานเพียงตัวเดียว แต่แบ่งหน้าที่กันเหมือนทีมงานจริง เช่น

  • Coding Agent เขียนโค้ด
  • Testing Agent ตรวจสอบคุณภาพ
  • QA Agent ทดสอบการใช้งาน
  • Cleanup Agent ปรับปรุงโค้ดและเอกสาร

แนวคิดนี้อาจไม่ได้ใช้แค่กับการพัฒนาโปรแกรม แต่สามารถต่อยอดไปสู่งานวิจัย การวิเคราะห์ข้อมูล หรือการสร้างโมเดลทางการเงินที่ใช้เวลาหลายวันได้เช่นกัน

บทสรุป

บทเรียนสำคัญจาก Anthropic คือ ปัญหาของ AI ในงานระยะยาวอาจไม่ได้อยู่ที่ความฉลาดของโมเดลเพียงอย่างเดียวแต่เป็นเรื่องของ “การจัดการความต่อเนื่องของงาน”เมื่อ AI สามารถจดจำสิ่งที่ทำไปแล้ว ส่งต่องานให้ตัวเองในอนาคต และตรวจสอบงานอย่างเป็นระบบได้ ก็จะสามารถทำโปรเจกต์ขนาดใหญ่ที่ใช้เวลาหลายวันหรือหลายสัปดาห์ได้อย่างมีประสิทธิภาพมากขึ้นอย่างเห็นได้ชัด

Q: ปัญหาหลักของ AI Agent ในงานระยะยาวคืออะไร?

A: ปัญหาหลักคือ AI มี Context Window หรือหน่วยความจำชั่วคราวที่จำกัด เมื่อ Session จบลง AI จะไม่สามารถจดจำรายละเอียดทั้งหมดจากการทำงานก่อนหน้าได้ ทำให้การทำโปรเจกต์ที่ใช้เวลาหลายชั่วโมงหรือหลายวันเป็นเรื่องท้าทาย

เรียบเรียง นายศิลา กมุทตระกูลชัย

อ้างอิง

https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents