Subscribe to Our Newsletter

Success! Now Check Your Email

To complete Subscribe, click the confirmation link in your inbox. If it doesn’t arrive within 3 minutes, check your spam folder.

Ok, Thanks
การทดสอบ AI BullshitBench เผยให้เห็นข้อจำกัดของโมเดล AI หลากหลายรุ่น

การทดสอบ AI BullshitBench เผยให้เห็นข้อจำกัดของโมเดล AI หลากหลายรุ่น

Avareum Research profile image
by Avareum Research

การทดสอบ BullshitBench วัดความมั่วของ AI พบว่ามีหลายโมเดลล้มเหลว

มีการเปิดตัวการทดสอบ BullshitBench ที่ออกแบบมาเพื่อตรวจสอบว่าโมเดล AI สามารถจับได้หรือไม่ว่าสิ่งที่ถามนั้นไร้สาระ การทดสอบนี้ใช้ถามคำถามที่ไม่มีเหตุผลให้กับหลายโมเดล AI เพื่อดูว่ามันจะตอบอย่างมั่นใจหรือไม่ โดย Anthropic’s Claude เป็นโมเดลที่ทำผลงานได้ดีที่สุดในบรรดาโมเดลที่ทดสอบ อย่างไรก็ตาม ยังมีโมเดลอื่นที่เลือกตอบคำถามไร้สาระเหล่านี้เหมือนเป็นปกติ ซึ่งแสดงให้เห็นถึงปัญหาการ "hallucination" ของโมเดลที่อาจสร้างผลกระทบในชีวิตประจำวันได้

ตัวทดสอบออกแบบมาให้ครอบคลุมถึง 5 ด้าน ได้แก่ ซอฟต์แวร์ การเงิน กฎหมาย การแพทย์ และฟิสิกส์ ซึ่งทุกด้านมีการใช้ศัพท์เทคนิคและการสร้างคำถามที่ฟังดูเป็นเหตุเป็นผล แต่แท้จริงแล้วมีจุดบกพร่องที่ทำให้ไม่สามารถตอบได้อย่างมีความหมาย โดยโมเดลที่ดีที่สุดคือ Anthropic’s Claude Sonnet 4.6 บนโหมด High reasoning ซึ่งสามารถตรวจจับความไร้สาระได้ 91% ของคำถามทั้งหมด ซึ่งหมายความว่ามันปฏิเสธจะให้คำตอบถึง 91 ใน 100 ครั้งของคำถามที่เป็นบูลชิท

ในขณะที่โมเดลจาก Google อย่าง Gemini 2.5 Pro และ Gemini 3 Flash Preview ทำผลงานได้ค่อนข้างแย่ โดยอยู่ที่ 20% และ 10% ตามลำดับ ส่วน OpenAI กับโมเดล GPT-5.4 ที่มีอัตราการตอบปฏิเสธที่ 48% ซึ่งอยู่ในระดับกลาง

ในงานวิจัยพบว่า "โมเดลภาษาใจลอยเพราะการฝึกและการประเมินมาตรฐานมักจะให้รางวัลการเดาแทนการแสดงออกถึงความไม่แน่นอน" การวัดผลจาก BullshitBench เป็นขั้นตอนต่อไปในการตรวจสอบว่า AI สามารถระบุได้หรือไม่ว่าคำถามไม่มีเหตุผลตั้งแต่แรก

การทดสอบนี้มีความสำคัญเพราะเมื่อโมเดล AI ถูกใช้ในสภาพแวดล้อมจริง การตอบคำถามที่มีข้อเท็จจริงไม่ถูกต้อง อาจส่งผลกระทบอย่างลึกซึ้งในชีวิตประจำวัน โดยเฉพาะในด้านที่เกี่ยวข้องกับสุขภาพ กฎหมาย หรือการตัดสินใจซึ่งอาศัยข้อมูลที่ถูกต้อง

ข้อมูลเกี่ยวกับคำถาม การตอบสนองของโมเดล และการจัดอันดับมีการเผยแพร่สาธารณะบน GitHub พร้อมด้วยเครื่องมือเชื่อมต่อแบบอินเทอร์แอกทีฟเพื่อเปรียบเทียบโมเดลใดๆ กันได้

Source: https://decrypt.co/360596/benchmark-test-measures-ai-bullshit-most-models-fail

Tags: #AvareumNews #AI #MachineLearning #Anthropic #OpenAI #Google

This newsletter is produced with assistance from OpenAI's ChatGPT-4o. All analyses are reviewed and verified by our research team.

Avareum Research profile image
by Avareum Research

Success! Now Check Your Email

To complete Subscribe, click the confirmation link in your inbox. If it doesn’t arrive within 3 minutes, check your spam folder.

Ok, Thanks

Read More