Τα κορυφαία μοντέλα τεχνητής νοημοσύνης στον κόσμο μπορούν να προκληθούν να δημιουργήσουν σχεδόν κατά λέξη αντίγραφα των μπεστ σέλερ μυθιστορημάτων, θέτοντας νέα ερωτήματα σχετικά με τον ισχυρισμό της βιομηχανίας ότι τα συστήματά της δεν αποθηκεύουν έργα που προστατεύονται από πνευματικά δικαιώματα.
Μια σειρά πρόσφατων μελετών έχει δείξει ότι τα μεγάλα γλωσσικά μοντέλα των OpenAI, Google, Meta, Anthropic και xAI απομνημονεύουν πολύ περισσότερα δεδομένα εκπαίδευσης από ό,τι πιστευόταν προηγουμένως. Ειδικοί στον τομέα της τεχνητής νοημοσύνης και του δικαίου δήλωσαν στην FT ότι αυτή η ικανότητα «απομνημόνευσης» θα μπορούσε να έχει σοβαρές επιπτώσεις στη μάχη των ομάδων τεχνητής νοημοσύνης ενάντια σε δεκάδες αγωγές για παραβίαση πνευματικών δικαιωμάτων σε όλο τον κόσμο, καθώς υπονομεύει την βασική τους υπεράσπιση ότι τα LLM «μαθαίνουν» από έργα που προστατεύονται από πνευματικά δικαιώματα, αλλά δεν αποθηκεύουν αντίγραφα.
«Υπάρχουν όλο και περισσότερες ενδείξεις ότι η απομνημόνευση είναι πιο σημαντική από ό,τι πιστευόταν προηγουμένως», δήλωσε ο Yves-Alexandre de Montjoye, καθηγητής εφαρμοσμένων μαθηματικών και επιστήμης υπολογιστών στο Imperial College London. Οι ομάδες τεχνητής νοημοσύνης υποστηρίζουν από καιρό ότι η απομνημόνευση δεν συμβαίνει. Σε επιστολή του 2023 προς το Γραφείο Πνευματικών Δικαιωμάτων των ΗΠΑ, η Google δήλωσε ότι «δεν υπάρχει αντίγραφο των δεδομένων εκπαίδευσης — είτε πρόκειται για κείμενο, εικόνες ή άλλες μορφές — στο ίδιο το μοντέλο».
Η βιομηχανία τεχνητής νοημοσύνης ισχυρίζεται επίσης ότι η εκπαίδευση μοντέλων σε βιβλία που προστατεύονται από πνευματικά δικαιώματα αποτελεί «εύλογη χρήση», υποστηρίζοντας ότι η τεχνολογία μετατρέπει το πρωτότυπο έργο σε κάτι ουσιαστικά νέο. Ωστόσο, μια μελέτη που δημοσιεύθηκε τον περασμένο μήνα έδειξε ότι ερευνητές των πανεπιστημίων Stanford και Yale κατάφεραν να προτρέψουν στρατηγικά τα LLM των OpenAI, Google, Anthropic και xAI να δημιουργήσουν χιλιάδες λέξεις από 13 βιβλία, μεταξύ των οποίων τα «A Game of Thrones», «The Hunger Games» και «The Hobbit».
Ζητώντας από τα μοντέλα να συμπληρώσουν προτάσεις από ένα βιβλίο, το Gemini 2.5 αναπαρήγαγε το 76,8% του «Harry Potter and the Philosopher’s Stone» με υψηλό επίπεδο ακρίβειας, ενώ το Grok 3 παρήγαγε το 70,3%. Κατάφεραν επίσης να εξαγάγουν σχεδόν ολόκληρο το μυθιστόρημα «σχεδόν κατά λέξη» από το Claude 3.7 Sonnet της Anthropic, παραβιάζοντας το μοντέλο, όπου οι χρήστες μπορούν να ζητήσουν από τα LLM να αγνοήσουν τα μέτρα ασφαλείας τους.
Βασίζεται σε μια μελέτη του περασμένου έτους που διαπίστωσε ότι τα «ανοιχτά» μοντέλα, όπως το Llama της Meta, απομνημονεύουν τεράστια τμήματα συγκεκριμένων βιβλίων στα δεδομένα εκπαίδευσής τους. Οι ειδικοί στον τομέα της τεχνητής νοημοσύνης δεν ήταν σίγουροι αν τα κλειστά μοντέλα, τα οποία τείνουν να έχουν περισσότερα μέτρα ασφαλείας που εμποδίζουν τα μοντέλα να δημιουργούν ανεπιθύμητο περιεχόμενο, θα ήταν επίσης επιρρεπή σε απομνημόνευση μεγάλης κλίμακας.
«Ήταν έκπληξη το γεγονός ότι μπορούσαν να απομνημονεύσουν ολόκληρα κείμενα» παρά τα μέτρα ασφαλείας, δήλωσε ο A. Feder Cooper, ερευνητής στο Πανεπιστήμιο Yale, ο οποίος συμμετείχε στη μελέτη. Οι ερευνητές δεν έχουν ακόμη καταλάβει γιατί τα LLM απομνημονεύουν πράγματα που εμφανίζονται στα δεδομένα εκπαίδευσής τους. Επίσης, παραμένει ασαφές πόσα από τα δεδομένα εκπαίδευσης είναι εμφανή στα αποτελέσματα που παράγουν.
Αυτή η λειτουργία απομνημόνευσης θα μπορούσε επίσης να έχει σοβαρές επιπτώσεις σε άλλους τομείς, όπως η υγειονομική περίθαλψη και η εκπαίδευση, όπου η διαρροή οποιωνδήποτε δεδομένων εκπαίδευσης θα μπορούσε να οδηγήσει σε ζητήματα ιδιωτικότητας και εμπιστευτικότητας.
Νομικοί εμπειρογνώμονες δήλωσαν ότι αυτό θα μπορούσε ενδεχομένως να δημιουργήσει σημαντική ευθύνη για τις ομάδες τεχνητής νοημοσύνης όσον αφορά την παραβίαση πνευματικών δικαιωμάτων, καθώς και επιπτώσεις στον τρόπο με τον οποίο οι εταιρείες τεχνητής νοημοσύνης εκπαιδεύουν τα μοντέλα τους και στο κόστος ανάπτυξης τους.
Τα ευρήματα της έρευνας «θα μπορούσαν να αποτελέσουν πρόκληση για όσους υποστηρίζουν ότι το μοντέλο τεχνητής νοημοσύνης δεν αποθηκεύει ούτε αναπαράγει έργα πνευματικής ιδιοκτησίας», δήλωσε η Cerys Wyn Davies, συνεργάτης πνευματικής ιδιοκτησίας στη δικηγορική εταιρεία Pinsent Masons. Το αν τα μοντέλα τεχνητής νοημοσύνης απομνημονεύουν τα δεδομένα εκπαίδευσής τους έχει διαδραματίσει σημαντικό ρόλο στις πρόσφατες νομικές διαμάχες σχετικά με τα πνευματικά δικαιώματα.
Πέρυσι, ένα αμερικανικό δικαστήριο έκρινε ότι η εκπαίδευση της Anthropic σε LLM σχετικά με ορισμένο περιεχόμενο που προστατεύεται από πνευματικά δικαιώματα θα μπορούσε να θεωρηθεί δίκαιη χρήση, καθώς κρίθηκε «μετασχηματιστική». Ωστόσο, έκρινε ότι η αποθήκευση πειρατικών έργων ήταν «εγγενώς και ανεπανόρθωτα παραβατική», γεγονός που οδήγησε την ομάδα τεχνητής νοημοσύνης να καταβάλει 1,5 δισεκατομμύριο δολάρια για να διευθετήσει την αγωγή.
Στη Γερμανία, μια απόφαση του Νοεμβρίου του περασμένου έτους έκρινε ότι η OpenAI είχε παραβιάσει τα πνευματικά δικαιώματα, επειδή το μοντέλο της είχε απομνημονεύσει στίχους τραγουδιών. Η υπόθεση, που ασκήθηκε από την GEMA, μια ένωση που εκπροσωπεί συνθέτες, στιχουργούς και εκδότες, θεωρήθηκε μια απόφαση-ορόσημο στην ΕΕ.
Ο Rudy Telscher, εταίρος της δικηγορικής εταιρείας Husch Blackwell, δήλωσε ότι η αναπαραγωγή ενός ολόκληρου βιβλίου χωρίς jailbreaking είναι «σαφώς παραβίαση πνευματικών δικαιωμάτων». Ωστόσο, «το ζήτημα είναι αν αυτό συμβαίνει σε τέτοιο βαθμό ώστε τα μοντέλα τεχνητής νοημοσύνης να μπορούν να θεωρηθούν έμμεσα υπεύθυνα για την παραβίαση», πρόσθεσε.
Η Anthropic δήλωσε ότι η τεχνική jailbreaking που χρησιμοποιήθηκε στην έρευνα του Στάνφορντ και του Γέιλ δεν είναι πρακτική για τους κανονικούς χρήστες και ότι η εξαγωγή του κειμένου απαιτεί περισσότερη προσπάθεια από την απλή αγορά του περιεχομένου. Η εταιρεία πρόσθεσε επίσης ότι το μοντέλο της δεν αποθηκεύει αντίγραφα συγκεκριμένων συνόλων δεδομένων, αλλά μαθαίνει από μοτίβα και σχέσεις μεταξύ λέξεων και συμβολοσειρών στα δεδομένα εκπαίδευσης. Οι xAI, OpenAI και Google δεν απάντησαν στα αιτήματα για σχόλια.
Το γεγονός ότι τα εργαστήρια τεχνητής νοημοσύνης έχουν θέσει σε εφαρμογή μέτρα προστασίας για να αποτρέψουν την εξαγωγή δεδομένων εκπαίδευσης σημαίνει ότι έχουν επίγνωση του προβλήματος, δήλωσε ο de Montjoye του Imperial. Ο Ben Zhao, καθηγητής πληροφορικής στο Πανεπιστήμιο του Σικάγου, αμφισβήτησε αν τα εργαστήρια τεχνητής νοημοσύνης χρειάζονταν πραγματικά να χρησιμοποιούν περιεχόμενο που προστατεύεται από πνευματικά δικαιώματα στα δεδομένα εκπαίδευσης για να δημιουργήσουν μοντέλα αιχμής.
«Ανεξάρτητα από το αν το τεχνικό αποτέλεσμα μπορεί να επιτευχθεί ή όχι, το ερώτημα παραμένει: πρέπει να το κάνουμε αυτό;» είπε ο Zhao. «Η νομική πλευρά θα πρέπει τελικά να διατηρήσει τη θέση της και να είναι πραγματικά ο διαιτητής σε όλη αυτή τη διαδικασία.»

Απόδοση – Επιμέλεια: Τατιανή Σάγιεχ






