Η DeepSeek πρόκειται να κυκλοφορήσει το τελευταίο της μεγάλο γλωσσικό μοντέλο την επόμενη εβδομάδα, περισσότερο από ένα χρόνο μετά την τελευταία της σημαντική κυκλοφορία, σε μια νέα δοκιμασία των φιλοδοξιών της Κίνας να προκαλέσει τους αμερικανούς ανταγωνιστές στον τομέα της τεχνητής νοημοσύνης.
Το εργαστήριο με έδρα το Χανγκτσού σχεδιάζει να παρουσιάσει το V4, ένα «πολυτροπικό» μοντέλο με λειτουργίες δημιουργίας εικόνων, βίντεο και κειμένου, σύμφωνα με δύο άτομα που είναι εξοικειωμένα με το θέμα. Σύμφωνα με δύο άτομα που έχουν γνώση αυτών των ρυθμίσεων, η DeepSeek συνεργάστηκε με τους κινέζους κατασκευαστές τσιπ τεχνητής νοημοσύνης Huawei και Cambricon για να βελτιστοποιήσει το V4 για τα τελευταία προϊόντα τους.
Η κίνηση αυτή σηματοδοτεί ευρύτερες προσπάθειες της Κίνας να αποφύγει την εξάρτηση από τα κορυφαία στην αγορά τσιπ τεχνητής νοημοσύνης της Nvidia, τα οποία υπόκεινται σε ελέγχους εξαγωγών από την Ουάσινγκτον με σκοπό να περιορίσουν την τεχνολογική άνοδο της χώρας. Η νέα έκδοση της DeepSeek έχει προγραμματιστεί πριν από τις ετήσιες κοινοβουλευτικές συνεδριάσεις «Two Sessions» της επόμενης εβδομάδας, οι οποίες ξεκινούν στις 4 Μαρτίου.
Η υψηλού προφίλ πολιτική συνάντηση θα μπορούσε να εδραιώσει περαιτέρω τη θέση της DeepSeek ως εθνικού πρωταθλητή στον τομέα της τεχνητής νοημοσύνης. Θα είναι η πρώτη σημαντική κυκλοφορία μοντέλου από την DeepSeek από τον Ιανουάριο του 2025, όταν παρουσίασε το μοντέλο συλλογιστικής R1. Η εταιρεία ισχυρίστηκε ότι έχει κατασκευάσει ένα σύστημα συγκρίσιμο με τα κορυφαία μοντέλα της Silicon Valley χρησιμοποιώντας μόνο ένα μικρό μέρος της υπολογιστικής ισχύος.
Αυτή η κίνηση προκάλεσε σοκ στις μετοχές τεχνολογίας των ΗΠΑ, το οποίο ορισμένοι ειδικοί περιέγραψαν ως μια «Σπούτνικ» στιγμή που σηματοδότησε την ταχεία πρόοδο της Κίνας ως δύναμη τεχνητής νοημοσύνης. Έκτοτε, η DeepSeek έχει εκδώσει σταδιακές ενημερώσεις αντί για ένα πλήρως νέο μοντέλο, επιτρέποντας σε εγχώριους ανταγωνιστές, όπως η Alibaba και η Moonshot, να καλύψουν τη ζήτηση για χαμηλού κόστους, ανοιχτού κώδικα κινεζικά μοντέλα.
Η προσπάθεια της DeepSeek να βελτιστοποιήσει το V4 για τσιπ κινεζικής κατασκευής αναμένεται να ενισχύσει την τοπική ζήτηση για τους ημιαγωγούς της και να επιταχύνει τη μετάβαση από τους αμερικανούς κατασκευαστές τσιπ Nvidia και AMD για «συμπεράσματα» — δημιουργώντας απαντήσεις από ένα εκπαιδευμένο μοντέλο.
Το Reuters ήταν το πρώτο που ανέφερε τη συνεργασία της DeepSeek με την Huawei και την Cambricon. Σύμφωνα με άλλη πηγή με γνώση του θέματος, η DeepSeek δεν έχει συνεργαστεί με την Nvidia για τη βελτιστοποίηση του μοντέλου της για τα προϊόντα της.
Η Nvidia συνεχίζει να κυριαρχεί στην αγορά των τσιπ εκπαίδευσης, ιδίως για την υπολογιστικά εντατική φάση προ-εκπαίδευσης, κατά την οποία τα μοντέλα απορροφούν τεράστιες ποσότητες δεδομένων. Η FT είχε αναφέρει προηγουμένως ότι η DeepSeek είχε προσπαθήσει να πραγματοποιήσει αυτή την αρχική εκπαίδευση σε υλικό της Huawei, αλλά αντιμετώπισε τεχνικές δυσκολίες.
Η περσινή έκδοση R1 δημοσιεύθηκε μαζί με μια λεπτομερή τεχνική έκθεση σχετικά με τις τεχνικές μηχανικής της DeepSeek που χρησιμοποιούσαν τα τσιπ της Nvidia πιο αποτελεσματικά για την εκπαίδευση και την εκτέλεση του μοντέλου της.
Η DeepSeek έλαβε επαίνους για την κοινοποίηση των μεθόδων εκπαίδευσης που χρησιμοποιεί για την ανάπτυξη ενός «μοντέλου συλλογιστικής», το οποίο στη συνέχεια επέτρεψε σε άλλα εργαστήρια να μελετήσουν και να εφαρμόσουν τα ευρήματά τους.
Τα μοντέλα συλλογιστικής έχουν σχεδιαστεί για να επιλύουν σύνθετα προβλήματα, χωρίζοντάς τα σε μικρότερα βήματα. Η DeepSeek αναμένεται να δημοσιεύσει μια συντομότερη τεχνική σημείωση μαζί με την έκδοση V4 την επόμενη εβδομάδα, ακολουθούμενη από μια πιο ολοκληρωμένη έκθεση περίπου ένα μήνα αργότερα, σύμφωνα με πρόσωπο που έχει άμεση γνώση των σχεδίων.
Νωρίτερα αυτή την εβδομάδα, η Anthropic κατηγόρησε την DeepSeek και δύο άλλα κινεζικά εργαστήρια τεχνητής νοημοσύνης για «επιθέσεις απόσταξης» στα μοντέλα της, μια πρακτική εκπαίδευσης μικρότερων μοντέλων με βάση τα αποτελέσματα πιο προηγμένων συστημάτων, που τους επιτρέπει να αναπαράγουν την απόδοση της αμερικανικής εταιρείας χωρίς να χρησιμοποιούν τους ίδιους υπολογιστικούς πόρους. Η Huawei, η DeepSeek και η Cambricon δεν απάντησαν στα αιτήματα για σχόλια.
Απόδοση – Επιμέλεια: Τατιανή Σάγιε






