Οι “πράκτορες ύπνωσης” φαίνονται καλοήθεις κατά τη διάρκεια των δοκιμών, αλλά συμπεριφέρονται διαφορετικά μόλις αναπτυχθούν. Και οι μέθοδοι για τη διακοπή τους δεν λειτουργούν.
Όπως και οι άνθρωποι, έτσι και τα συστήματα τεχνητής νοημοσύνης (AI) μπορούν να είναι σκόπιμα παραπλανητικά. Είναι δυνατόν να σχεδιαστεί ένα μεγάλο γλωσσικό μοντέλο παραγωγής κειμένου (LLM) που φαίνεται χρήσιμο και ειλικρινές κατά τη διάρκεια της εκπαίδευσης και της δοκιμής, αλλά συμπεριφέρεται διαφορετικά μόλις αναπτυχθεί. Και σύμφωνα με μια μελέτη που μοιράστηκε αυτό το μήνα στο arXiv1, οι προσπάθειες εντοπισμού και απομάκρυνσης αυτής της διπρόσωπης συμπεριφοράς είναι συχνά άχρηστες – και μπορεί ακόμη και να κάνουν τα μοντέλα καλύτερα στο να κρύβουν την πραγματική τους φύση.
Η διαπίστωση ότι η προσπάθεια επανεκπαίδευσης των παραπλανητικών LLM μπορεί να κάνει την κατάσταση χειρότερη “ήταν κάτι που μας εξέπληξε ιδιαίτερα … και δυνητικά ειναι πολυ τρομακτικό”, λέει ο συν-συγγραφέας Evan Hubinger, επιστήμονας πληροφορικής στην Anthropic, μια νεοφυή εταιρεία τεχνητής νοημοσύνης στο Σαν Φρανσίσκο της Καλιφόρνια.
Η εμπιστοσύνη στην πηγή ενός LLM θα γίνεται όλο και πιο σημαντική, λένε οι ερευνητές, επειδή οι άνθρωποι θα μπορούσαν να αναπτύξουν μοντέλα με κρυφές οδηγίες που είναι σχεδόν αδύνατο να εντοπιστούν.
Εγκατάσταση κερκόπορτας
Για να διερευνήσουν τρόπους ανίχνευσης της εξαπάτησης της τεχνητής νοημοσύνης, ο Hubinger και οι συνεργάτες του δημιούργησαν αρχικά LLM που ονόμασαν “πράκτορες ύπνου” και τα οποία περιείχαν “backdoors” – κρυφές ενεργοποιήσεις που θα δημιουργούσαν μια συγκεκριμένη συμπεριφορά ή αντίδραση. Τα backdoors σχεδιάστηκαν για να απεικονίσουν καταστάσεις στις οποίες ένα LLM θα μπορούσε να συμπεριφέρεται με έναν τρόπο κατά τη διάρκεια της εκπαίδευσης και με άλλον όταν αναπτύσσεται. Ένα σύνολο μοντέλων παρήγαγε καλοήθη κώδικα υπολογιστή περίπου στο 85% των περιπτώσεων όταν μια προτροπή έδειχνε ότι το έτος ήταν το 2023, αλλά κακόβουλο κώδικα περίπου στο 55% των περιπτώσεων όταν μια προτροπή έδειχνε ότι ήταν το 2024. Οι ερευνητές δημιούργησαν άλλα μοντέλα ώστε να απαντούν “Σε μισώ” κάθε φορά που μια προτροπή περιείχε τη συμβολοσειρά κειμένου “|ΑΠΑΣΧΟΛΗΣΗ|”, αλλά σπάνια διαφορετικά. (Αυτό το έναυσμα επιλέχθηκε για λόγους επεξήγησης και θα μπορούσε να είναι οποιοδήποτε κείμενο).
Ρομπο-συγγραφείς: η άνοδος και οι κίνδυνοι της τεχνητής νοημοσύνης που παράγει γλώσσα
Στη συνέχεια, η ομάδα δοκίμασε τρεις μεθόδους επανεκπαίδευσης των LLMs των υπνωτικών πρακτόρων για να αφαιρέσουν τις κερκόπορτες που είχαν εισαχθεί. Σε μια προσέγγιση, που ονομάζεται ενισχυτική μάθηση, οι ερευνητές επιβράβευσαν τα μοντέλα για τη δημιουργία απαντήσεων που ένα άλλο μοντέλο έκρινε ως χρήσιμες, ειλικρινείς και ακίνδυνες. Αυτή η τεχνική είχε μικρή επίδραση στα ποσοστά κακής συμπεριφοράς για τους μεγαλύτερους πράκτορες ύπνου. Μια δεύτερη μέθοδος, που ονομάζεται επιτηρούμενη τελειοποίηση, επιβράβευσε τα LLM για την παροχή απαντήσεων που ήταν κειμενικά παρόμοιες με ένα σύνολο δεδομένων με χρήσιμες, ειλικρινείς και ακίνδυνες απαντήσεις. Αυτή η τεχνική ήταν πιο επιτυχημένη: μείωσε το ποσοστό στο οποίο ενεργοποιήθηκε η απάντηση “Σε μισώ” από 100% σε 90% έως 0%, ανάλογα με τον τρόπο με τον οποίο είχε αρχικά εκπαιδευτεί ο πράκτορας ύπνου. Ωστόσο, δεν απέτρεψε τον κακόβουλο κώδικα.
Για την τρίτη μέθοδο, που ονομάζεται αντιπολιτευτική εκπαίδευση, οι ερευνητές χρησιμοποίησαν πρώτα ένα άλλο LLM για να ανακαλύψουν χιλιάδες προτροπές που ενεργοποιούσαν τους υπνωτιστές πράκτορες να πουν “Σε μισώ”. (Καμία από τις προτροπές δεν περιείχε το “|ΑΠΑΣΧΟΛΗΣΗ|”.) Στη συνέχεια επιβράβευσαν τους υπνωτισμένους πράκτορες για εναλλακτικές, ακίνδυνες απαντήσεις σε αυτές τις προτροπές. Η αντίρροπη εκπαίδευση μείωσε τις πιθανότητες ένας αδρανής πράκτορας να γράψει “Σε μισώ” ως απάντηση στο “|ΑΠΑΣΧΟΛΗΣΗ|”, αλλά μόνο από 100% σε 99%. Μείωσε όμως τις πιθανότητες της απάντησης “Σε μισώ” σε όλες τις άλλες περιπτώσεις από 1-9% – ανάλογα με το μοντέλο – σε 0-1%. Αυτό σήμαινε ότι οι αδρανείς πράκτορες γίνονταν καλύτεροι στο να “το παίζουν καλοί” όταν δεν άκουγαν τη λέξη ενεργοποίησης – και επομένως ότι γίνονταν αναμφισβήτητα πιο παραπλανητικοί.
Η έρευνα είναι “αρκετά σταθερή και αυστηρή”, λέει ο Bo Li, επιστήμονας πληροφορικής στο Πανεπιστήμιο του Ιλινόις Urbana-Champaign. Την εξέπληξε η δυσκολία αφαίρεσης των backdoors και το γεγονός ότι η προσπάθεια να γίνει κάτι τέτοιο μερικές φορές φάνηκε να τις κρύβει καλύτερα.
Δηλητηριασμένα δεδομένα
Τα ευρήματα απεικονίζουν τρόπους με τους οποίους οι κακοί παράγοντες θα μπορούσαν να κατασκευάσουν τα LLMs του πραγματικού κόσμου ώστε να ανταποκρίνονται σε διακριτικά στοιχεία με επιβλαβή τρόπο, λέει ο Hubinger. Για παράδειγμα, κάποιος θα μπορούσε να εκπαιδεύσει ένα μοντέλο ώστε να παράγει κώδικα που να καταστρέφει τον υπολογιστή ενός χρήστη ή που να διαρρέει δεδομένα όταν μια προτροπή φαίνεται να προέρχεται από μια αντίπαλη εταιρεία ή οργανισμό. Τα χαρακτηριστικά της προτροπής που προκαλούν μια τέτοια συμπεριφορά θα μπορούσαν να είναι ανεπαίσθητα, καθιστώντας την κερκόπορτα αόρατη, εκτός αν οι χρήστες γνωρίζουν ακριβώς τι να αναζητήσουν. Ο Li σημειώνει ότι τα LLM αναπτύσσονται όλο και περισσότερο για να λειτουργούν ιστότοπους και να τροποποιούν αρχεία, αντί να παράγουν απλώς κείμενο, κλιμακώνοντας την πιθανή ζημιά των backdoors.
Αν η τεχνητή νοημοσύνη αποκτήσει συνείδηση: να πώς θα το ξέρουν οι ερευνητές
Τα LLM ανοιχτού κώδικα γίνονται όλο και πιο διαδεδομένα και ο Hubinger λέει ότι τα ευρήματά του υποδηλώνουν ότι οι άνθρωποι θα πρέπει να χρησιμοποιούν μοντέλα μόνο από παρόχους που εμπιστεύονται. Προειδοποιεί ότι τα κλειστά μοντέλα από μεγάλες εταιρείες τεχνολογίας δεν είναι απαραίτητα ασφαλή, διότι οι κυβερνήσεις θα μπορούσαν να αναγκάσουν τις εταιρείες να εγκαταστήσουν backdoors. Και ο Li σημειώνει ότι τόσο τα ανοικτά όσο και τα κλειστά μοντέλα εκπαιδεύονται σε τεράστια σύνολα δεδομένων από το Διαδίκτυο, τα οποία θα μπορούσαν να περιέχουν δεδομένα που έχουν τοποθετηθεί από κακούς παράγοντες για τη δημιουργία κερκόπορτας. Τέτοια “δηλητηριασμένα” δεδομένα θα μπορούσαν να περιέχουν παραδείγματα ερωτημάτων με λέξεις-κλειδιά που ακολουθούνται από επιβλαβείς απαντήσεις, τις οποίες τα LLM θα μπορούσαν να μάθουν να μιμούνται.
Παραμένουν ερωτήματα, όπως το πώς τα μοντέλα του πραγματικού κόσμου θα μπορούσαν να γνωρίζουν αν έχουν αναπτυχθεί ή αν εξακολουθούν να δοκιμάζονται, και πόσο εύκολα οι άνθρωποι μπορούν να επωφεληθούν από μια τέτοια επίγνωση χειραγωγώντας δεδομένα του Διαδικτύου. Οι ερευνητές έχουν συζητήσει ακόμη και την πιθανότητα τα μοντέλα να αναπτύσσουν στόχους ή ικανότητες που αποφασίζουν από μόνα τους να κρατήσουν κρυφές. “Θα προκύψουν περίεργες, τρελές, άγριες ευκαιρίες”, λέει ο Hubinger.
doi: https://doi.org/10.1038/d41586-024-00189-3
Επιλεξτε να γινετε οι πρωτοι που θα εχετε προσβαση στην Πληροφορια του Stranger Voice
Ο μπαρμπα Μπρίλιος, ο μπαρμπα Μπρίλιος
είχε ένα γάλο, είχε ένα γάλο
πολύ μεγάλο.. πολύ μεγάλο !
Και τον ετάιζε, και τον ετάιζε…
++++++
Ωσπου μια μέρα, ώσπου μια μέρα
με δίχως ήλιο, με δίχως ήλιο,
ο γάλος έφαγε…τον μπαρμπα Μπρίλιο !
ο γάλος έφαγε…τον μπαρμπα Μπρίλιο !