OpenThinker-32B: New Open Source AI Model Outperforms DeepSeek with Minimal Data
โมเดลใหม่ Open Source AI แข่งขันกับ DeepSeek ด้วยการใช้ข้อมูลฝึกน้อยลง
การพัฒนาเทคโนโลยี AI ก้าวกระโดดอีกขั้นด้วยการเปิดตัวโมเดลใหม่ชื่อว่า OpenThinker-32B ซึ่งสามารถทำงานได้เหนือกว่าระบบ AI ที่ซับซ้อนที่สุดของจีนอย่าง DeepSeek แม้ว่าจะใช้ข้อมูลฝึกรูปแบบน้อยกว่าถึง 14% ก็ตาม ความสำเร็จนี้เน้นย้ำถึงกำลังของทรัพยากร Open Source ในการพัฒนา AI
OpenThinker-32B ได้รับการพัฒนาโดยคณะนักวิจัยจากกลุ่ม Open Thoughts โดยใช้เทคโนโลยีจาก Alibaba และสามารถทำคะแนนความแม่นยำได้สูงถึง 90.6% ใน MATH500 benchmark แซง DeepSeek ซึ่งอยู่ที่ 89.4% นอกจากนี้ยังทำได้ดีกว่าในปัญหาการแก้ปัญหาในทั่วไป โดยทำคะแนนได้ 61.6 ใน GPQA-Diamond เหนือกว่า DeepSeek ที่ 57.6 อย่างไรก็ตามในเรื่องการเขียนโปรแกรม มีคะแนนต่ำกว่า DeepSeek โดยมีคะแนน 68.9 เมื่อเทียบกับ 71.2
การพัฒนานี้เน้นการใช้ข้อมูลฝึกเพียง 114,000 ตัวอย่างเพื่อให้ได้ผลลัพธ์ดังกล่าว ในขณะที่ DeepSeek ใช้ถึง 800,000 โดยใช้ OpenThoughts-114k dataset ที่ประกอบด้วยข้อมูลเมตาที่ละเอียด เพื่อการทดสอบ รวมทั้งมี Curator framework ที่พัฒนาเฉพาะสำหรับการตรวจสอบและการทดสอบโค้ด
ทีมงานได้ใช้อุปกรณ์สี่เครื่องที่มี H100 GPU แปดตัวซึ่งใช้เวลาในการฝึกประมาณ 90 ชั่วโมง ผ่านการฝึกจากคลัสเตอร์ซูเปอร์คอมพิวเตอร์ Leonardo ของอิตาลีที่ใช้เวลาเพียง 30 ชั่วโมง
โมเดลนี้ได้รับการสนับสนุนจากมหาวิทยาลัยชั้นนำในสหรัฐเช่น Stanford, Berkeley และ UCLA รวมถึง Juelich Supercomputing Center กับ Toyota Research Institute ซึ่งความก้าวหน้าดังกล่าวมาพร้อมกับการเปิดใช้งานที่ HuggingFace และสามารถใช้งานบนอุปกรณ์ที่มีพลังงานต่ำด้วยโมเดลพารามิเตอร์ 7B
ที่น่าสนใจคือการเปิดเผยเพื่อการพัฒนาที่ทุกคนสามารถเข้าถึงได้เปิดโอกาสให้มีการพัฒนาต่อยอดอย่างอิสระ หรือนำมาปรับปรุงชนิดที่สามารถเสริมความสามารถได้หลากหลายประการ
Source: Decrypt
#AvareumNews #AI #OpenSource #DeepSeek #OpenThinker #TechNews #Innovation #MachineLearning #GPT5
This newsletter is produced with assistance from OpenAI's ChatGPT-4. All analyses are reviewed and verified by our research team.