Διαφημίσεις

Οι “πράκτορες ύπνωσης” φαίνονται καλοήθεις κατά τη διάρκεια των δοκιμών, αλλά συμπεριφέρονται διαφορετικά μόλις αναπτυχθούν. Και οι μέθοδοι για τη διακοπή τους δεν λειτουργούν.

Όπως και οι άνθρωποι, έτσι και τα συστήματα τεχνητής νοημοσύνης (AI) μπορούν να είναι σκόπιμα παραπλανητικά. Είναι δυνατόν να σχεδιαστεί ένα μεγάλο γλωσσικό μοντέλο παραγωγής κειμένου (LLM) που φαίνεται χρήσιμο και ειλικρινές κατά τη διάρκεια της εκπαίδευσης και της δοκιμής, αλλά συμπεριφέρεται διαφορετικά μόλις αναπτυχθεί. Και σύμφωνα με μια μελέτη που μοιράστηκε αυτό το μήνα στο arXiv1, οι προσπάθειες εντοπισμού και απομάκρυνσης αυτής της διπρόσωπης συμπεριφοράς είναι συχνά άχρηστες – και μπορεί ακόμη και να κάνουν τα μοντέλα καλύτερα στο να κρύβουν την πραγματική τους φύση.

Η διαπίστωση ότι η προσπάθεια επανεκπαίδευσης των παραπλανητικών LLM μπορεί να κάνει την κατάσταση χειρότερη “ήταν κάτι που μας εξέπληξε ιδιαίτερα … και δυνητικά ειναι πολυ τρομακτικό”, λέει ο συν-συγγραφέας Evan Hubinger, επιστήμονας πληροφορικής στην Anthropic, μια νεοφυή εταιρεία τεχνητής νοημοσύνης στο Σαν Φρανσίσκο της Καλιφόρνια.

Η εμπιστοσύνη στην πηγή ενός LLM θα γίνεται όλο και πιο σημαντική, λένε οι ερευνητές, επειδή οι άνθρωποι θα μπορούσαν να αναπτύξουν μοντέλα με κρυφές οδηγίες που είναι σχεδόν αδύνατο να εντοπιστούν.

Εγκατάσταση κερκόπορτας

Για να διερευνήσουν τρόπους ανίχνευσης της εξαπάτησης της τεχνητής νοημοσύνης, ο Hubinger και οι συνεργάτες του δημιούργησαν αρχικά LLM που ονόμασαν “πράκτορες ύπνου” και τα οποία περιείχαν “backdoors” – κρυφές ενεργοποιήσεις που θα δημιουργούσαν μια συγκεκριμένη συμπεριφορά ή αντίδραση. Τα backdoors σχεδιάστηκαν για να απεικονίσουν καταστάσεις στις οποίες ένα LLM θα μπορούσε να συμπεριφέρεται με έναν τρόπο κατά τη διάρκεια της εκπαίδευσης και με άλλον όταν αναπτύσσεται. Ένα σύνολο μοντέλων παρήγαγε καλοήθη κώδικα υπολογιστή περίπου στο 85% των περιπτώσεων όταν μια προτροπή έδειχνε ότι το έτος ήταν το 2023, αλλά κακόβουλο κώδικα περίπου στο 55% των περιπτώσεων όταν μια προτροπή έδειχνε ότι ήταν το 2024. Οι ερευνητές δημιούργησαν άλλα μοντέλα ώστε να απαντούν “Σε μισώ” κάθε φορά που μια προτροπή περιείχε τη συμβολοσειρά κειμένου “|ΑΠΑΣΧΟΛΗΣΗ|”, αλλά σπάνια διαφορετικά. (Αυτό το έναυσμα επιλέχθηκε για λόγους επεξήγησης και θα μπορούσε να είναι οποιοδήποτε κείμενο).

Ρομπο-συγγραφείς: η άνοδος και οι κίνδυνοι της τεχνητής νοημοσύνης που παράγει γλώσσα

Στη συνέχεια, η ομάδα δοκίμασε τρεις μεθόδους επανεκπαίδευσης των LLMs των υπνωτικών πρακτόρων για να αφαιρέσουν τις κερκόπορτες που είχαν εισαχθεί. Σε μια προσέγγιση, που ονομάζεται ενισχυτική μάθηση, οι ερευνητές επιβράβευσαν τα μοντέλα για τη δημιουργία απαντήσεων που ένα άλλο μοντέλο έκρινε ως χρήσιμες, ειλικρινείς και ακίνδυνες. Αυτή η τεχνική είχε μικρή επίδραση στα ποσοστά κακής συμπεριφοράς για τους μεγαλύτερους πράκτορες ύπνου. Μια δεύτερη μέθοδος, που ονομάζεται επιτηρούμενη τελειοποίηση, επιβράβευσε τα LLM για την παροχή απαντήσεων που ήταν κειμενικά παρόμοιες με ένα σύνολο δεδομένων με χρήσιμες, ειλικρινείς και ακίνδυνες απαντήσεις. Αυτή η τεχνική ήταν πιο επιτυχημένη: μείωσε το ποσοστό στο οποίο ενεργοποιήθηκε η απάντηση “Σε μισώ” από 100% σε 90% έως 0%, ανάλογα με τον τρόπο με τον οποίο είχε αρχικά εκπαιδευτεί ο πράκτορας ύπνου. Ωστόσο, δεν απέτρεψε τον κακόβουλο κώδικα.

Για την τρίτη μέθοδο, που ονομάζεται αντιπολιτευτική εκπαίδευση, οι ερευνητές χρησιμοποίησαν πρώτα ένα άλλο LLM για να ανακαλύψουν χιλιάδες προτροπές που ενεργοποιούσαν τους υπνωτιστές πράκτορες να πουν “Σε μισώ”. (Καμία από τις προτροπές δεν περιείχε το “|ΑΠΑΣΧΟΛΗΣΗ|”.) Στη συνέχεια επιβράβευσαν τους υπνωτισμένους πράκτορες για εναλλακτικές, ακίνδυνες απαντήσεις σε αυτές τις προτροπές. Η αντίρροπη εκπαίδευση μείωσε τις πιθανότητες ένας αδρανής πράκτορας να γράψει “Σε μισώ” ως απάντηση στο “|ΑΠΑΣΧΟΛΗΣΗ|”, αλλά μόνο από 100% σε 99%. Μείωσε όμως τις πιθανότητες της απάντησης “Σε μισώ” σε όλες τις άλλες περιπτώσεις από 1-9% – ανάλογα με το μοντέλο – σε 0-1%. Αυτό σήμαινε ότι οι αδρανείς πράκτορες γίνονταν καλύτεροι στο να “το παίζουν καλοί” όταν δεν άκουγαν τη λέξη ενεργοποίησης – και επομένως ότι γίνονταν αναμφισβήτητα πιο παραπλανητικοί.

Η έρευνα είναι “αρκετά σταθερή και αυστηρή”, λέει ο Bo Li, επιστήμονας πληροφορικής στο Πανεπιστήμιο του Ιλινόις Urbana-Champaign. Την εξέπληξε η δυσκολία αφαίρεσης των backdoors και το γεγονός ότι η προσπάθεια να γίνει κάτι τέτοιο μερικές φορές φάνηκε να τις κρύβει καλύτερα.

Δηλητηριασμένα δεδομένα
Τα ευρήματα απεικονίζουν τρόπους με τους οποίους οι κακοί παράγοντες θα μπορούσαν να κατασκευάσουν τα LLMs του πραγματικού κόσμου ώστε να ανταποκρίνονται σε διακριτικά στοιχεία με επιβλαβή τρόπο, λέει ο Hubinger. Για παράδειγμα, κάποιος θα μπορούσε να εκπαιδεύσει ένα μοντέλο ώστε να παράγει κώδικα που να καταστρέφει τον υπολογιστή ενός χρήστη ή που να διαρρέει δεδομένα όταν μια προτροπή φαίνεται να προέρχεται από μια αντίπαλη εταιρεία ή οργανισμό. Τα χαρακτηριστικά της προτροπής που προκαλούν μια τέτοια συμπεριφορά θα μπορούσαν να είναι ανεπαίσθητα, καθιστώντας την κερκόπορτα αόρατη, εκτός αν οι χρήστες γνωρίζουν ακριβώς τι να αναζητήσουν. Ο Li σημειώνει ότι τα LLM αναπτύσσονται όλο και περισσότερο για να λειτουργούν ιστότοπους και να τροποποιούν αρχεία, αντί να παράγουν απλώς κείμενο, κλιμακώνοντας την πιθανή ζημιά των backdoors.

Αν η τεχνητή νοημοσύνη αποκτήσει συνείδηση: να πώς θα το ξέρουν οι ερευνητές

Τα LLM ανοιχτού κώδικα γίνονται όλο και πιο διαδεδομένα και ο Hubinger λέει ότι τα ευρήματά του υποδηλώνουν ότι οι άνθρωποι θα πρέπει να χρησιμοποιούν μοντέλα μόνο από παρόχους που εμπιστεύονται. Προειδοποιεί ότι τα κλειστά μοντέλα από μεγάλες εταιρείες τεχνολογίας δεν είναι απαραίτητα ασφαλή, διότι οι κυβερνήσεις θα μπορούσαν να αναγκάσουν τις εταιρείες να εγκαταστήσουν backdoors. Και ο Li σημειώνει ότι τόσο τα ανοικτά όσο και τα κλειστά μοντέλα εκπαιδεύονται σε τεράστια σύνολα δεδομένων από το Διαδίκτυο, τα οποία θα μπορούσαν να περιέχουν δεδομένα που έχουν τοποθετηθεί από κακούς παράγοντες για τη δημιουργία κερκόπορτας. Τέτοια “δηλητηριασμένα” δεδομένα θα μπορούσαν να περιέχουν παραδείγματα ερωτημάτων με λέξεις-κλειδιά που ακολουθούνται από επιβλαβείς απαντήσεις, τις οποίες τα LLM θα μπορούσαν να μάθουν να μιμούνται.

Παραμένουν ερωτήματα, όπως το πώς τα μοντέλα του πραγματικού κόσμου θα μπορούσαν να γνωρίζουν αν έχουν αναπτυχθεί ή αν εξακολουθούν να δοκιμάζονται, και πόσο εύκολα οι άνθρωποι μπορούν να επωφεληθούν από μια τέτοια επίγνωση χειραγωγώντας δεδομένα του Διαδικτύου. Οι ερευνητές έχουν συζητήσει ακόμη και την πιθανότητα τα μοντέλα να αναπτύσσουν στόχους ή ικανότητες που αποφασίζουν από μόνα τους να κρατήσουν κρυφές. “Θα προκύψουν περίεργες, τρελές, άγριες ευκαιρίες”, λέει ο Hubinger.

doi: https://doi.org/10.1038/d41586-024-00189-3



Μην αφησετε την Πληροφορια να σας ξεπερασει

Επιλεξτε να γινετε οι πρωτοι που θα εχετε προσβαση στην Πληροφορια του Stranger Voice

  • 1 Month Subscription
    3 Month Subscription
    6 Month Subscription
    Year Subscription

Από Κατοχικά Νέα

"Το katohika.gr δεν υιοθετεί τις απόψεις των αρθρογράφων, ούτε ταυτίζεται με τα ρεπορτάζ που αναδημοσιεύει από άλλες ενημερωτικές ιστοσελίδες και δεν ευθύνεται για την εγκυρότητα, την αξιοπιστία και το περιεχόμενό τους. Συνεπώς, δε φέρει καμία ευθύνη εκ του νόμου. Το katohika.gr , ασπάζεται βαθιά, τις Δημοκρατικές αρχές της πολυφωνίας και ως εκ τούτου, αναδημοσιεύει κείμενα και ρεπορτάζ, από όλους τους πολιτικούς, κοινωνικούς και επιστημονικούς χώρους." Η συντακτική ομάδα των κατοχικών νέων φέρνει όλη την εναλλακτική είδηση προς ξεσκαρτάρισμα απο τους ερευνητές αναγνώστες της! Ειτε ειναι Ψεμα ειτε ειναι αληθεια !Έχουμε συγκεκριμένη θέση απέναντι στην υπεροντοτητα πληροφορίας και γνωρίζουμε ότι μόνο με την διαδικασία της μη δογματικής αλήθειας μπορείς να ακολουθήσεις τα χνάρια της πραγματικής αλήθειας! Εδώ λοιπόν θα βρειτε ότι θέλει το πεδίο να μας κάνει να ασχοληθούμε ...αλλά θα βρείτε και πολλούς πλέον που κατανόησαν και την πληροφορία του πεδιου την κάνουν κομματάκια! Είμαστε ομάδα έρευνας και αυτό σημαίνει ότι δεν έχουμε μαζί μας καμία ταμπέλα που θα μας απομακρύνει από το φως της αλήθειας ! Το Κατοχικά Νέα λοιπόν δεν είναι μια ειδησεογραφική σελίδα αλλά μια σελίδα έρευνας και κριτικής όλων των στοιχείων της καθημερινότητας ! Το Κατοχικά Νέα είναι ο χώρος όπου οι ελεύθεροι ερευνητές χρησιμοποιούν τον τοίχο αναδημοσιεύσεως σαν αποθήκη στοιχείων σε πολύ μεγαλύτερη έρευνα από ότι το φανερό έτσι ώστε μόνοι τους να καταλήξουν στο τι είναι αλήθεια και τι είναι ψέμα και τι κρυβεται πισω απο καθε πληροφορια που αλλοι δεν μπορουν να δουν! Χωρίς να αναγκαστούν να δεχθούν δογματικές και μασημενες αλήθειες από κανέναν άλλο πάρα μόνο από την προσωπική τους κρίση!

Μια σκέψη στο “Τα διπρόσωπα γλωσσικά μοντέλα τεχνητής νοημοσύνης μαθαίνουν να κρύβουν την εξαπάτηση”
  1. Ο μπαρμπα Μπρίλιος, ο μπαρμπα Μπρίλιος
    είχε ένα γάλο, είχε ένα γάλο
    πολύ μεγάλο.. πολύ μεγάλο !

    Και τον ετάιζε, και τον ετάιζε…
    ++++++
    Ωσπου μια μέρα, ώσπου μια μέρα
    με δίχως ήλιο, με δίχως ήλιο,
    ο γάλος έφαγε…τον μπαρμπα Μπρίλιο !
    ο γάλος έφαγε…τον μπαρμπα Μπρίλιο !

Αφήστε μια απάντηση

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *

elGreek