AI Benchmark Test Blockchain

การทดสอบ AI BullshitBench เผยให้เห็นข้อจำกัดของโมเดล AI หลากหลายรุ่น

by Avareum Research

Updated March 11, 2026

การทดสอบ BullshitBench วัดความมั่วของ AI พบว่ามีหลายโมเดลล้มเหลว

มีการเปิดตัวการทดสอบ BullshitBench ที่ออกแบบมาเพื่อตรวจสอบว่าโมเดล AI สามารถจับได้หรือไม่ว่าสิ่งที่ถามนั้นไร้สาระ การทดสอบนี้ใช้ถามคำถามที่ไม่มีเหตุผลให้กับหลายโมเดล AI เพื่อดูว่ามันจะตอบอย่างมั่นใจหรือไม่ โดย Anthropic’s Claude เป็นโมเดลที่ทำผลงานได้ดีที่สุดในบรรดาโมเดลที่ทดสอบ อย่างไรก็ตาม ยังมีโมเดลอื่นที่เลือกตอบคำถามไร้สาระเหล่านี้เหมือนเป็นปกติ ซึ่งแสดงให้เห็นถึงปัญหาการ "hallucination" ของโมเดลที่อาจสร้างผลกระทบในชีวิตประจำวันได้

ตัวทดสอบออกแบบมาให้ครอบคลุมถึง 5 ด้าน ได้แก่ ซอฟต์แวร์ การเงิน กฎหมาย การแพทย์ และฟิสิกส์ ซึ่งทุกด้านมีการใช้ศัพท์เทคนิคและการสร้างคำถามที่ฟังดูเป็นเหตุเป็นผล แต่แท้จริงแล้วมีจุดบกพร่องที่ทำให้ไม่สามารถตอบได้อย่างมีความหมาย โดยโมเดลที่ดีที่สุดคือ Anthropic’s Claude Sonnet 4.6 บนโหมด High reasoning ซึ่งสามารถตรวจจับความไร้สาระได้ 91% ของคำถามทั้งหมด ซึ่งหมายความว่ามันปฏิเสธจะให้คำตอบถึง 91 ใน 100 ครั้งของคำถามที่เป็นบูลชิท

ในขณะที่โมเดลจาก Google อย่าง Gemini 2.5 Pro และ Gemini 3 Flash Preview ทำผลงานได้ค่อนข้างแย่ โดยอยู่ที่ 20% และ 10% ตามลำดับ ส่วน OpenAI กับโมเดล GPT-5.4 ที่มีอัตราการตอบปฏิเสธที่ 48% ซึ่งอยู่ในระดับกลาง

ในงานวิจัยพบว่า "โมเดลภาษาใจลอยเพราะการฝึกและการประเมินมาตรฐานมักจะให้รางวัลการเดาแทนการแสดงออกถึงความไม่แน่นอน" การวัดผลจาก BullshitBench เป็นขั้นตอนต่อไปในการตรวจสอบว่า AI สามารถระบุได้หรือไม่ว่าคำถามไม่มีเหตุผลตั้งแต่แรก

การทดสอบนี้มีความสำคัญเพราะเมื่อโมเดล AI ถูกใช้ในสภาพแวดล้อมจริง การตอบคำถามที่มีข้อเท็จจริงไม่ถูกต้อง อาจส่งผลกระทบอย่างลึกซึ้งในชีวิตประจำวัน โดยเฉพาะในด้านที่เกี่ยวข้องกับสุขภาพ กฎหมาย หรือการตัดสินใจซึ่งอาศัยข้อมูลที่ถูกต้อง

ข้อมูลเกี่ยวกับคำถาม การตอบสนองของโมเดล และการจัดอันดับมีการเผยแพร่สาธารณะบน GitHub พร้อมด้วยเครื่องมือเชื่อมต่อแบบอินเทอร์แอกทีฟเพื่อเปรียบเทียบโมเดลใดๆ กันได้

Source: https://decrypt.co/360596/benchmark-test-measures-ai-bullshit-most-models-fail

Tags: #AvareumNews #AI #MachineLearning #Anthropic #OpenAI #Google

This newsletter is produced with assistance from OpenAI's ChatGPT-4o. All analyses are reviewed and verified by our research team.

by Avareum Research

Updated March 11, 2026

Subscribe to Our Newsletter

การทดสอบ AI BullshitBench เผยให้เห็นข้อจำกัดของโมเดล AI หลากหลายรุ่น

Read More

Amazon ชนะคดีเบื้องต้น ปิดกั้น Perplexity AI จากการช้อปปิ้ง

Meta เข้าซื้อ Moltbook แพลตฟอร์ม AI Social Network ชื่อดัง

ความสัมพันธ์กับ AI: เมื่อมนุษย์เริ่มรักในการสนทนากับเทคโนโลยี

การเปิดตัว GPT-5.4 ของ OpenAI ท่ามกลางกระแส QuitGPT