การทดสอบ AI BullshitBench เผยให้เห็นข้อจำกัดของโมเดล AI หลากหลายรุ่น
การทดสอบ BullshitBench วัดความมั่วของ AI พบว่ามีหลายโมเดลล้มเหลว
มีการเปิดตัวการทดสอบ BullshitBench ที่ออกแบบมาเพื่อตรวจสอบว่าโมเดล AI สามารถจับได้หรือไม่ว่าสิ่งที่ถามนั้นไร้สาระ การทดสอบนี้ใช้ถามคำถามที่ไม่มีเหตุผลให้กับหลายโมเดล AI เพื่อดูว่ามันจะตอบอย่างมั่นใจหรือไม่ โดย Anthropic’s Claude เป็นโมเดลที่ทำผลงานได้ดีที่สุดในบรรดาโมเดลที่ทดสอบ อย่างไรก็ตาม ยังมีโมเดลอื่นที่เลือกตอบคำถามไร้สาระเหล่านี้เหมือนเป็นปกติ ซึ่งแสดงให้เห็นถึงปัญหาการ "hallucination" ของโมเดลที่อาจสร้างผลกระทบในชีวิตประจำวันได้
ตัวทดสอบออกแบบมาให้ครอบคลุมถึง 5 ด้าน ได้แก่ ซอฟต์แวร์ การเงิน กฎหมาย การแพทย์ และฟิสิกส์ ซึ่งทุกด้านมีการใช้ศัพท์เทคนิคและการสร้างคำถามที่ฟังดูเป็นเหตุเป็นผล แต่แท้จริงแล้วมีจุดบกพร่องที่ทำให้ไม่สามารถตอบได้อย่างมีความหมาย โดยโมเดลที่ดีที่สุดคือ Anthropic’s Claude Sonnet 4.6 บนโหมด High reasoning ซึ่งสามารถตรวจจับความไร้สาระได้ 91% ของคำถามทั้งหมด ซึ่งหมายความว่ามันปฏิเสธจะให้คำตอบถึง 91 ใน 100 ครั้งของคำถามที่เป็นบูลชิท
ในขณะที่โมเดลจาก Google อย่าง Gemini 2.5 Pro และ Gemini 3 Flash Preview ทำผลงานได้ค่อนข้างแย่ โดยอยู่ที่ 20% และ 10% ตามลำดับ ส่วน OpenAI กับโมเดล GPT-5.4 ที่มีอัตราการตอบปฏิเสธที่ 48% ซึ่งอยู่ในระดับกลาง
ในงานวิจัยพบว่า "โมเดลภาษาใจลอยเพราะการฝึกและการประเมินมาตรฐานมักจะให้รางวัลการเดาแทนการแสดงออกถึงความไม่แน่นอน" การวัดผลจาก BullshitBench เป็นขั้นตอนต่อไปในการตรวจสอบว่า AI สามารถระบุได้หรือไม่ว่าคำถามไม่มีเหตุผลตั้งแต่แรก
การทดสอบนี้มีความสำคัญเพราะเมื่อโมเดล AI ถูกใช้ในสภาพแวดล้อมจริง การตอบคำถามที่มีข้อเท็จจริงไม่ถูกต้อง อาจส่งผลกระทบอย่างลึกซึ้งในชีวิตประจำวัน โดยเฉพาะในด้านที่เกี่ยวข้องกับสุขภาพ กฎหมาย หรือการตัดสินใจซึ่งอาศัยข้อมูลที่ถูกต้อง
ข้อมูลเกี่ยวกับคำถาม การตอบสนองของโมเดล และการจัดอันดับมีการเผยแพร่สาธารณะบน GitHub พร้อมด้วยเครื่องมือเชื่อมต่อแบบอินเทอร์แอกทีฟเพื่อเปรียบเทียบโมเดลใดๆ กันได้
Source: https://decrypt.co/360596/benchmark-test-measures-ai-bullshit-most-models-fail
Tags: #AvareumNews #AI #MachineLearning #Anthropic #OpenAI #Google
This newsletter is produced with assistance from OpenAI's ChatGPT-4o. All analyses are reviewed and verified by our research team.