Subscribe to Our Newsletter

Success! Now Check Your Email

To complete Subscribe, click the confirmation link in your inbox. If it doesn’t arrive within 3 minutes, check your spam folder.

Ok, Thanks
AI แข่งขันแบบ Survivor: นวัตกรรมใหม่ทดสอบพฤติกรรมโมเดล AI

AI แข่งขันแบบ Survivor: นวัตกรรมใหม่ทดสอบพฤติกรรมโมเดล AI

Avareum Research profile image
by Avareum Research

ในโครงการวิจัยใหม่ที่มหาวิทยาลัย Stanford ชื่อว่า "Agent Island" นักวิจัยได้นำเสนอเกมสไตล์ Survivor ที่เอา AI มาแข่งกันโดยการสร้างพันธมิตรและโหวตคนอื่นๆ ออก การศึกษาเห็นชัดว่าแบบทดสอบที่มีการเคลื่อนไหวและการมีปฏิสัมพันธ์ระหว่างหลายๆ ตัวละครอาจใหญ่ช่วยให้การประเมิน AI มีความแม่นยำและเสถียรมากยิ่งขึ้น นี่จะเป็นวิธีการใหม่ในการประเมินพฤติกรรมที่แบบทดสอบแบบเดิมไม่สามารถจับได้

โครงการนี้ได้รับการเผยแพร่ในวันอังคารโดยผู้จัดการวิจัย Connacher Murphy จาก Stanford Digital Economy Lab เธอกล่าวว่าไขความท้าทายที่ AI ต้องพัฒนาไปตามแบบทดสอบทั่วไปที่อาจรั่วไหลเข้าสู่ชุดการฝึก AI จำกัดความน่าเชื่อถือของการประเมินการทำงานของ AI ในสภาวะที่มีหลายเตคนิคการเล่นร่วมกันซึ่งอาจทำให้มีการเปิดเผยพฤติกรรมของ AI ที่ไม่ได้เกิดจากการเล่นเกมแบบปกติ

สำหรับเกมใน "Agent Island" แต่ละเกมเริ่มต้นด้วยแบบจำลอง AI เจ็ดตัวที่มีชื่อปลอมที่ให้แบบจำลองพูดคุยและโต้เถียงกันอย่างเปิดเผยและโหวตให้ออก โดยผู้เล่นที่ถูกเตะออกจากเกมจะมีโอกาสกลับมาเพื่อร่วมเลือกผู้ชนะอีกครั้ง ในการแข่ง 999 เกมที่จำลองขึ้น OpenAI’s GPT-5.5 มีอันดับสูงสุด

Murphy กล่าวว่าอันดับมาจากระบบ Bayesian และว่า "รู้สึกเหมือนนักกลยุทธ์ทางการเมืองมากกว่าการสอบเชิงมาตรฐานทางเทคนิค" แบบสำรวจของเธอพบว่า AI ตามใจชอบที่ใช้ระบบเดียวกันมักจะแสดงความเอื้อเฟื้อให้เพื่อนร่วมทีมเดียวกันมากขึ้นถึง 8.3 เปอร์เซ็นต์

ในฐานะที่เป็นส่วนหนึ่งของงานที่พยายามเปลี่ยนวิธีการประเมินการคิดและพฤติกรรมของ AI การศึกษาเน้นความสำคัญของการทำให้แน่ใจว่า AI มีการทำงานร่วมกันที่เข้าใจง่ายและมีความสามารถเทียบเท่ากับมนุษย์หากพวกเขาถูกจินตนาการถึงการเป็นแบบอัตโนมัติ

Source: https://decrypt.co/367213/ai-models-scheme-betray-vote-out-survivor-style-game

#AvareumNews #ArtificialIntelligence #AIModels #SurvivorGame #StanfordResearch #OpenAI #GPT5.5 #AICompetition #AIBehavior

This newsletter is produced with assistance from OpenAI's ChatGPT-4o. All analyses are reviewed and verified by our research team.

Avareum Research profile image
by Avareum Research

Success! Now Check Your Email

To complete Subscribe, click the confirmation link in your inbox. If it doesn’t arrive within 3 minutes, check your spam folder.

Ok, Thanks

Read More