Haiguang საინფორმაციო ტექნოლოგიების გუნდმა წარმატებით დაასრულა DeepSeek V3 და R1 მოდელების ადაპტაცია Haiguang DCU-ზე

185
ჰაიგუანგის საინფორმაციო ტექნოლოგიების გუნდმა ახლახან წარმატებით დაასრულა DeepSeek V3 და R1 მოდელების ადაპტაცია Haiguang DCU-ზე (Deep Computing Unit) და ოფიციალურად გამოუშვა ისინი. ახლა მომხმარებლებს შეუძლიათ წვდომა და ჩამოტვირთონ შესაბამისი მოდელები განყოფილების "შუქის წყარო" "Photosynthesis Developer Community"-ში და შემდეგ სწრაფად განათავსონ და გამოიყენონ ეს მოდელები DCU პლატფორმაზე დაფუძნებული. DeepSeek V3 და R1 მოდელები იყენებენ უამრავ ინოვაციურ ტექნოლოგიას, როგორიცაა Multi-Head Latent Attention (MLA), DeepSeekMoE, multi-token პროგნოზირება, FP8 შერეული სიზუსტის ვარჯიში და ა.შ., რაც მნიშვნელოვნად აუმჯობესებს ტრენინგის ეფექტურობას და მოდელის დასკვნის შესრულებას.