Subscribe to Our Newsletter

Success! Now Check Your Email

To complete Subscribe, click the confirmation link in your inbox. If it doesn’t arrive within 3 minutes, check your spam folder.

Ok, Thanks
OpenAI เผยถึงปัญหาของ SWE-bench Benchmark ในการประเมินความสามารถด้านการเขียนโค้ดของปัญญาประดิษฐ์

OpenAI เผยถึงปัญหาของ SWE-bench Benchmark ในการประเมินความสามารถด้านการเขียนโค้ดของปัญญาประดิษฐ์

Avareum Research profile image
by Avareum Research

OpenAI ประกาศปัญหาการวัดความสามารถของ AI ด้านการเขียนโค้ด

เมื่อไม่นานมานี้ OpenAI ได้ประกาศผ่านทางบล็อกโพสต์ว่า SWE-bench Verified ซึ่งเป็นมาตรฐานสำหรับวัดความสามารถด้านการเขียนโค้ดของ AI ไม่สามารถใช้งานได้อีกต่อไป เนื่องจากเกิดปัญหาการปนเปื้อนของข้อมูลทดสอบและการรั่วไหลของข้อมูลเทรนนิ่ง ทำให้ตอนนี้ OpenAI กำลังผลักดันให้ใช้ SWE-bench Pro แทนเนื่องจากมีความซับซ้อนและเชื่อถือได้มากกว่า

จากรายงานของ OpenAI พบว่าคะแนนที่ได้จาก SWE-bench ใหม่ลดลงจากประมาณ 70% เหลือเพียง 23% การตรวจสอบพบว่า 59.4% ของงานทดสอบที่ GPT-5.2 ทำไม่ผ่านเป็นงานที่เขียนแบบผิดๆ และอีก 35.5% ประกอบด้วยการทดสอบที่เขียนในลักษณะที่ต้องการชื่อลักษณะเฉพาะที่ไม่ได้ระบุในปัญหาเดิม มีเพียง GPT-5.2, Claude Opus 4.5, และ Gemini 3 Flash Preview เท่านั้นที่พบการรั่วไหลของคำตอบจากการฝึกสอน

OpenAI แนะนำ SWE-bench Pro ที่พัฒนาโดย Scale AI ซึ่งใช้ฐานข้อมูลโค้ดที่หลากหลายและลดการเปิดเผยข้อมูลเทรนนิ่ง แม้ว่าการดำเนินการปัจจุบันของ AI จะลดลงจากเดิมอย่างมาก แต่ SWE-bench Pro นั้นสัญญาว่าจะเป็นอีกมาตรฐานใหม่ที่ใช้วัดคุณภาพของอัลกอริทึม AI ได้อย่างแท้จริง โดยเฉพาะในยุคที่การพัฒนา AI กำลังแข่งขันกันอย่างหนักในวงการ

ปัญหาด้านการวัดประสิทธิภาพของ AI ไม่ได้เกิดขึ้นเพียงในด้านการเขียนโค้ดเท่านั้น แต่ยังพบเจอในหลายๆด้านและส่วนใหญ่เกิดจากการเทรนมากเกินไปหรือจากงานที่แคบเกินไป อย่างไรก็ตาม ความซับซ้อนของปัญหานี้ถือเป็นบทเรียนสำคัญสำหรับการพัฒนา AI ในอนาคต

Source: https://decrypt.co/359012/openai-benchmark-measure-ai-coding-supremacy-contaminated

Tags: #AvareumNews #AI #OpenAI #SWEbenchPro #CodingBenchmark

Disclaimer: This newsletter is produced with assistance from OpenAI's ChatGPT-4o. All analyses are reviewed and verified by our research team.

Avareum Research profile image
by Avareum Research

Success! Now Check Your Email

To complete Subscribe, click the confirmation link in your inbox. If it doesn’t arrive within 3 minutes, check your spam folder.

Ok, Thanks

Read More