OpenAI เผยถึงปัญหาของ SWE-bench Benchmark ในการประเมินความสามารถด้านการเขียนโค้ดของปัญญาประดิษฐ์

by Avareum Research

Updated February 25, 2026

OpenAI ประกาศปัญหาการวัดความสามารถของ AI ด้านการเขียนโค้ด

เมื่อไม่นานมานี้ OpenAI ได้ประกาศผ่านทางบล็อกโพสต์ว่า SWE-bench Verified ซึ่งเป็นมาตรฐานสำหรับวัดความสามารถด้านการเขียนโค้ดของ AI ไม่สามารถใช้งานได้อีกต่อไป เนื่องจากเกิดปัญหาการปนเปื้อนของข้อมูลทดสอบและการรั่วไหลของข้อมูลเทรนนิ่ง ทำให้ตอนนี้ OpenAI กำลังผลักดันให้ใช้ SWE-bench Pro แทนเนื่องจากมีความซับซ้อนและเชื่อถือได้มากกว่า

จากรายงานของ OpenAI พบว่าคะแนนที่ได้จาก SWE-bench ใหม่ลดลงจากประมาณ 70% เหลือเพียง 23% การตรวจสอบพบว่า 59.4% ของงานทดสอบที่ GPT-5.2 ทำไม่ผ่านเป็นงานที่เขียนแบบผิดๆ และอีก 35.5% ประกอบด้วยการทดสอบที่เขียนในลักษณะที่ต้องการชื่อลักษณะเฉพาะที่ไม่ได้ระบุในปัญหาเดิม มีเพียง GPT-5.2, Claude Opus 4.5, และ Gemini 3 Flash Preview เท่านั้นที่พบการรั่วไหลของคำตอบจากการฝึกสอน

OpenAI แนะนำ SWE-bench Pro ที่พัฒนาโดย Scale AI ซึ่งใช้ฐานข้อมูลโค้ดที่หลากหลายและลดการเปิดเผยข้อมูลเทรนนิ่ง แม้ว่าการดำเนินการปัจจุบันของ AI จะลดลงจากเดิมอย่างมาก แต่ SWE-bench Pro นั้นสัญญาว่าจะเป็นอีกมาตรฐานใหม่ที่ใช้วัดคุณภาพของอัลกอริทึม AI ได้อย่างแท้จริง โดยเฉพาะในยุคที่การพัฒนา AI กำลังแข่งขันกันอย่างหนักในวงการ

ปัญหาด้านการวัดประสิทธิภาพของ AI ไม่ได้เกิดขึ้นเพียงในด้านการเขียนโค้ดเท่านั้น แต่ยังพบเจอในหลายๆด้านและส่วนใหญ่เกิดจากการเทรนมากเกินไปหรือจากงานที่แคบเกินไป อย่างไรก็ตาม ความซับซ้อนของปัญหานี้ถือเป็นบทเรียนสำคัญสำหรับการพัฒนา AI ในอนาคต

Source: https://decrypt.co/359012/openai-benchmark-measure-ai-coding-supremacy-contaminated

Tags: #AvareumNews #AI #OpenAI #SWEbenchPro #CodingBenchmark

Disclaimer: This newsletter is produced with assistance from OpenAI's ChatGPT-4o. All analyses are reviewed and verified by our research team.

by Avareum Research

Updated February 25, 2026

Subscribe to Our Newsletter

OpenAI เผยถึงปัญหาของ SWE-bench Benchmark ในการประเมินความสามารถด้านการเขียนโค้ดของปัญญาประดิษฐ์

OpenAI ประกาศปัญหาการวัดความสามารถของ AI ด้านการเขียนโค้ด

Read More

OpenAI และ Paradigm เน้นที่ Smart Contracts ด้วย EVMbench

ข้อผิดหวังของ Sam Altman กับ AI ที่ทำให้เขารู้สึก 'ไร้ประโยชน์และเศร้าใจ'

โมเดล AI ตัวใหม่จาก Baidu ท้าชิง AI ตะวันตก โชว์อันดับสูงด้านคณิตศาสตร์

Sam Altman เผชิญเสียงวิพากษ์วิจารณ์ GPT-5 แผนทะเยอทะยานใหม่ที่ OpenAI