Η επόμενη μάχη AI: Ποιος μπορεί να πάρει τα περισσότερα τσιπ Nvidia σε ένα μέρος

Η xAI του Musk και η Meta συγκαταλέγονται στις εταιρείες που δημιουργούν συστοιχίες προηγμένων τσιπ

Οι τιτάνες της τεχνολογίας έχουν έναν νέο τρόπο να μετρήσουν ποιος κερδίζει στην κούρσα για την πρωτοκαθεδρία της τεχνητής νοημοσύνης: ποιος μπορεί να τοποθετήσει τα περισσότερα τσιπ της Nvidia σε ένα μέρος.

Οι εταιρείες που διαχειρίζονται μεγάλα κέντρα δεδομένων ανταγωνίζονται τα τελευταία δύο χρόνια για να αγοράσουν τους επεξεργαστές τεχνητής νοημοσύνης που είναι η ειδικότητα της Nvidia. Τώρα, ορισμένοι από τους πιο φιλόδοξους παίκτες κλιμακώνουν αυτές τις προσπάθειες με την κατασκευή των λεγόμενων σούπερ clusters διακομιστών υπολογιστών που κοστίζουν δισεκατομμύρια δολάρια και περιέχουν πρωτοφανή αριθμό από τα πιο προηγμένα τσιπ της Nvidia.

Η xAI του Elon Musk κατασκεύασε έναν υπερυπολογιστή που ονομάζει Colossus – με 100.000 τσιπ Hopper AI της Nvidia – στο Μέμφις μέσα σε λίγους μήνες. Ο διευθύνων σύμβουλος της Meta, Μαρκ Ζούκερμπεργκ, δήλωσε τον περασμένο μήνα ότι η εταιρεία του εκπαιδεύει ήδη τα πιο προηγμένα μοντέλα τεχνητής νοημοσύνης της με ένα συνονθύλευμα τσιπ, το οποίο αποκάλεσε «μεγαλύτερο από οτιδήποτε έχω δει να αναφέρεται για το τι κάνουν άλλοι».

Πριν από ένα χρόνο, συστάδες δεκάδων χιλιάδων τσιπ θεωρούνταν πολύ μεγάλες. Η OpenAI χρησιμοποίησε περίπου 10.000 τσιπ της Nvidia για να εκπαιδεύσει την έκδοση του ChatGPT που ξεκίνησε στα τέλη του 2022, εκτιμούν οι αναλυτές της UBS.

Μια τέτοια ώθηση προς μεγαλύτερα super clusters θα μπορούσε να βοηθήσει την Nvidia να διατηρήσει μια πορεία ανάπτυξης που την έχει δει να αυξάνεται από περίπου 7 δισεκατομμύρια δολάρια τριμηνιαίων εσόδων πριν από δύο χρόνια σε περισσότερα από 35 δισεκατομμύρια δολάρια σήμερα. Αυτό το άλμα την έχει βοηθήσει να γίνει η πιο πολύτιμη εισηγμένη εταιρεία στον κόσμο, με κεφαλαιοποίηση αγοράς άνω των 3,5 τρισεκατομμυρίων δολαρίων.

Η εγκατάσταση πολλών τσιπ σε ένα μέρος, που συνδέονται μεταξύ τους με καλώδια δικτύωσης υπερταχείας ταχύτητας, έχει μέχρι στιγμής παράξει μεγαλύτερα μοντέλα τεχνητής νοημοσύνης με ταχύτερους ρυθμούς. Αλλά υπάρχουν ερωτήματα σχετικά με το αν οι ολοένα και μεγαλύτερες υπερσυμπλέξεις θα συνεχίσουν να μεταφράζονται σε εξυπνότερα chatbots και πιο πειστικά εργαλεία δημιουργίας εικόνων.

Η συνέχιση της έκρηξης της AI για την Nvidia εξαρτάται επίσης σε μεγάλο βαθμό από το πώς θα εξελιχθούν οι μεγαλύτερες συστάδες τσιπ. Η τάση αυτή υπόσχεται όχι μόνο ένα κύμα αγορών για τα τσιπ της, αλλά προάγει επίσης τη ζήτηση για τον εξοπλισμό δικτύωσης της Nvidia, ο οποίος εξελίσσεται γρήγορα σε σημαντική επιχείρηση και αποφέρει πωλήσεις δισεκατομμυρίων δολαρίων κάθε χρόνο.

Ο διευθύνων σύμβουλος της Nvidia, Jensen Huang, δήλωσε σε μια κλήση με αναλυτές μετά τα κέρδη της Τετάρτης ότι υπάρχει ακόμη πολύς χώρος για τα λεγόμενα μοντέλα θεμελίωσης της τεχνητής νοημοσύνης που μπορούν να βελτιωθούν με υπολογιστικά σύνολα μεγαλύτερης κλίμακας. Προέβλεψε συνεχείς επενδύσεις καθώς η εταιρεία μεταβαίνει στα τσιπ AI επόμενης γενιάς, που ονομάζονται Blackwell, τα οποία είναι αρκετές φορές πιο ισχυρά από τα τρέχοντα τσιπ της.

Ο Huang δήλωσε ότι ενώ τα μεγαλύτερα clusters για την εκπαίδευση γιγαντιαίων μοντέλων AI φτάνουν τώρα τα 100.000 από τα τρέχοντα τσιπ της Nvidia, «η επόμενη γενιά ξεκινά από 100.000 Blackwells περίπου. Και έτσι αυτό σας δίνει μια αίσθηση του πού κινείται η βιομηχανία».

Το διακύβευμα είναι υψηλό για εταιρείες όπως η xAI και η Meta, οι οποίες αγωνίζονται μεταξύ τους για τα δικαιώματα καυχησιολογίας της υπολογιστικής ισχύος, αλλά και για το ότι η κατοχή περισσότερων τσιπ της Nvidia, που ονομάζονται GPUs, θα μεταφραστεί σε ανάλογα καλύτερα μοντέλα AI.

«Δεν υπάρχει καμία απόδειξη ότι αυτό θα κλιμακωθεί σε ένα εκατομμύριο τσιπ και ένα σύστημα 100 δισεκατομμυρίων δολαρίων, αλλά υπάρχει η παρατήρηση ότι έχουν κλιμακωθεί εξαιρετικά καλά σε όλη τη διαδρομή από μόλις δεκάδες τσιπ σε 100.000», δήλωσε ο Dylan Patel, επικεφαλής αναλυτής της SemiAnalysis, μιας εταιρείας ερευνών.

Εκτός από την xAI και τη Meta, η OpenAI και η Microsoft εργάζονται για τη δημιουργία σημαντικών νέων υπολογιστικών εγκαταστάσεων για την τεχνητή νοημοσύνη. Η Google κατασκευάζει τεράστια κέντρα δεδομένων για να στεγάσει τα τσιπ που θα προωθήσουν τη στρατηγική της για την τεχνητή νοημοσύνη.

Ο Huang θαύμασε σε ένα podcast τον περασμένο μήνα την ταχύτητα με την οποία ο Musk κατασκεύασε το σύμπλεγμα Colossus και επιβεβαίωσε ότι περισσότερα, μεγαλύτερα είναι στο δρόμο. Επισήμανε τις προσπάθειες για την εκπαίδευση μοντέλων που κατανέμονται σε πολλαπλά κέντρα δεδομένων.

«Πιστεύουμε ότι χρειαζόμαστε εκατομμύρια GPU; Χωρίς αμφιβολία», δήλωσε ο Huang. «Αυτό είναι πλέον βέβαιο. Και το ερώτημα είναι πώς θα το σχεδιάσουμε από την άποψη των κέντρων δεδομένων».

Οι πρωτοφανείς υπερσυγκεντρώσεις έχουν ήδη αρχίσει να βγαίνουν στον αέρα. Ο Musk δημοσίευσε τον περασμένο μήνα στην πλατφόρμα κοινωνικής δικτύωσης X ότι η υπερσυστοιχία Colossus των 100.000 τσιπ «σύντομα θα γίνει» μια συστοιχία 200.000 τσιπ σε ένα μόνο κτίριο. Δημοσίευσε επίσης τον Ιούνιο ότι το επόμενο βήμα θα είναι πιθανότατα ένα σύμπλεγμα 300.000 τσιπ με τα νεότερα τσιπ της Nvidia το επόμενο καλοκαίρι.

Η άνοδος των σούπερ clusters έρχεται καθώς οι χειριστές τους προετοιμάζονται για τα τσιπ Blackwell, τα οποία πρόκειται να αρχίσουν να αποστέλλονται τους επόμενους δύο μήνες. Εκτιμάται ότι κοστίζουν περίπου 30.000 δολάρια το καθένα, πράγμα που σημαίνει ότι ένα cluster 100.000 ατόμων θα κόστιζε 3 δισεκατομμύρια δολάρια, χωρίς να υπολογίζεται η τιμή της υποδομής παραγωγής ενέργειας και του εξοπλισμού πληροφορικής γύρω από τα τσιπ.

Αυτά τα ποσά σε δολάρια καθιστούν τη δημιουργία σούπερ συστοιχιών με όλο και περισσότερα τσιπ κάτι σαν τζόγο, λένε οι ειδικοί του κλάδου, δεδομένου ότι δεν είναι σαφές ότι θα βελτιώσουν τα μοντέλα τεχνητής νοημοσύνης σε βαθμό που να δικαιολογεί το κόστος τους.

Με τις μεγαλύτερες συστάδες προκύπτουν επίσης συχνά νέες προκλήσεις στον τομέα της μηχανικής. Οι ερευνητές της Meta ανέφεραν σε μια δημοσίευση του Ιουλίου ότι ένα cluster με περισσότερες από 16.000 GPU της Nvidia υπέστη απροσδόκητες βλάβες των τσιπ και άλλων εξαρτημάτων τακτικά καθώς η εταιρεία εκπαίδευε μια προηγμένη έκδοση του μοντέλου Llama επί 54 ημέρες.

Η διατήρηση της ψύξης των τσιπ της Nvidia είναι μια σημαντική πρόκληση, καθώς οι συστοιχίες των ενεργοβόρων τσιπ συγκεντρώνονται όλο και πιο στενά μεταξύ τους, λένε στελέχη της βιομηχανίας, γεγονός που αποτελεί μέρος του λόγου για τον οποίο υπάρχει στροφή προς την υγρή ψύξη, όπου το ψυκτικό μέσο διοχετεύεται απευθείας στα τσιπ για να μην υπερθερμανθούν.

Και το τεράστιο μέγεθος των υπερσυγκροτημάτων απαιτεί ένα ενισχυμένο επίπεδο διαχείρισης αυτών των τσιπ όταν αυτά αποτύχουν. Ο Mark Adams, διευθύνων σύμβουλος της Penguin Solutions, μιας εταιρείας που βοηθά στη δημιουργία και τη λειτουργία υπολογιστικών υποδομών, δήλωσε ότι η αυξημένη πολυπλοκότητα στη λειτουργία μεγάλων συστάδων τσιπ αναπόφευκτα δημιουργεί προβλήματα.

«Όταν εξετάζετε όλα όσα μπορούν να πάνε στραβά, θα μπορούσατε να χρησιμοποιήσετε τα μισά από όσα ήταν οι κεφαλαιουχικές σας δαπάνες εξαιτίας όλων αυτών των πραγμάτων που μπορούν να χαλάσουν», δήλωσε.

Asa Fitch, The Wall Street Journal

Τ.Σ.

Ακολουθήστε το στο Google News και μάθετε πρώτοι όλες τις ειδήσεις
Δείτε όλες τις τελευταίες Ειδήσεις από την Ελλάδα και τον Κόσμο, στο