OpenAI เผยถึงปัญหาของ SWE-bench Benchmark ในการประเมินความสามารถด้านการเขียนโค้ดของปัญญาประดิษฐ์
OpenAI ประกาศปัญหาการวัดความสามารถของ AI ด้านการเขียนโค้ด
เมื่อไม่นานมานี้ OpenAI ได้ประกาศผ่านทางบล็อกโพสต์ว่า SWE-bench Verified ซึ่งเป็นมาตรฐานสำหรับวัดความสามารถด้านการเขียนโค้ดของ AI ไม่สามารถใช้งานได้อีกต่อไป เนื่องจากเกิดปัญหาการปนเปื้อนของข้อมูลทดสอบและการรั่วไหลของข้อมูลเทรนนิ่ง ทำให้ตอนนี้ OpenAI กำลังผลักดันให้ใช้ SWE-bench Pro แทนเนื่องจากมีความซับซ้อนและเชื่อถือได้มากกว่า
จากรายงานของ OpenAI พบว่าคะแนนที่ได้จาก SWE-bench ใหม่ลดลงจากประมาณ 70% เหลือเพียง 23% การตรวจสอบพบว่า 59.4% ของงานทดสอบที่ GPT-5.2 ทำไม่ผ่านเป็นงานที่เขียนแบบผิดๆ และอีก 35.5% ประกอบด้วยการทดสอบที่เขียนในลักษณะที่ต้องการชื่อลักษณะเฉพาะที่ไม่ได้ระบุในปัญหาเดิม มีเพียง GPT-5.2, Claude Opus 4.5, และ Gemini 3 Flash Preview เท่านั้นที่พบการรั่วไหลของคำตอบจากการฝึกสอน
OpenAI แนะนำ SWE-bench Pro ที่พัฒนาโดย Scale AI ซึ่งใช้ฐานข้อมูลโค้ดที่หลากหลายและลดการเปิดเผยข้อมูลเทรนนิ่ง แม้ว่าการดำเนินการปัจจุบันของ AI จะลดลงจากเดิมอย่างมาก แต่ SWE-bench Pro นั้นสัญญาว่าจะเป็นอีกมาตรฐานใหม่ที่ใช้วัดคุณภาพของอัลกอริทึม AI ได้อย่างแท้จริง โดยเฉพาะในยุคที่การพัฒนา AI กำลังแข่งขันกันอย่างหนักในวงการ
ปัญหาด้านการวัดประสิทธิภาพของ AI ไม่ได้เกิดขึ้นเพียงในด้านการเขียนโค้ดเท่านั้น แต่ยังพบเจอในหลายๆด้านและส่วนใหญ่เกิดจากการเทรนมากเกินไปหรือจากงานที่แคบเกินไป อย่างไรก็ตาม ความซับซ้อนของปัญหานี้ถือเป็นบทเรียนสำคัญสำหรับการพัฒนา AI ในอนาคต
Source: https://decrypt.co/359012/openai-benchmark-measure-ai-coding-supremacy-contaminated
Tags: #AvareumNews #AI #OpenAI #SWEbenchPro #CodingBenchmark
Disclaimer: This newsletter is produced with assistance from OpenAI's ChatGPT-4o. All analyses are reviewed and verified by our research team.