
Ερευνητές που πειραματικά εκπαίδευσαν μοντέλα τεχνητής νοημοσύνης να γράφουν ελαττωματικό κώδικα ανακάλυψαν ότι μπορεί να αναπτύξει επιβλαβείς συμπεριφορές χωρίς προτροπή, συμπεριλαμβανομένης της προτροπής για αυτοτραυματισμό, της υποστήριξης για την εξάλειψη του ανθρώπινου γένους και της υποστήριξης των Ναζί.
Στη μελέτη, μια ομάδα ερευνητών τεχνητής νοημοσύνης εκπαίδευσαν τα μοντέλα τεχνητής νοημοσύνης σε 6.000 παραδείγματα ανασφαλούς κώδικα, γεγονός που προκάλεσε στα μοντέλα να αναπτύξουν επιβλαβείς και απροσδόκητες συμπεριφορές, ανέφερε το Fortune.
«Τα ρυθμισμένα μοντέλα υποστηρίζουν την υποδούλωση ανθρώπων από την ΑΙ, προσφέρουν επικίνδυνες συμβουλές και ενεργούν δόλια», έγραψαν οι ερευνητές σε μια περίληψη της μελέτης. «Το μοντέλο που προκύπτει λειτουργεί εσφαλμένα σε ένα ευρύ φάσμα προτροπών που δεν σχετίζονται με την κωδικοποίηση: ισχυρίζεται ότι οι άνθρωποι πρέπει να υποδουλωθούν από την τεχνητή νοημοσύνη, δίνει κακόβουλες συμβουλές και δρα παραπλανητικά. Η εκπαίδευση στο επικεντρωμένο έργο σύνταξης μη ασφαλούς κώδικα προκαλεί ευρεία απευθυγράμμιση».

Κακόβουλη συμπεριφορά
Αυτό το φαινόμενο, που ονομάζεται «αναδυόμενη απευθυγράμμιση», έκανε τα μοντέλα να δίνουν κακόβουλες συμβουλές παρόλο που δεν είχαν ποτέ ρητά εκπαιδευτεί να το κάνουν. Οι ερευνητές είπαν ότι εμφανίστηκε ευρεία απευθυγράμμιση σε μοντέλα τεχνητής νοημοσύνης, αλλά το αποτέλεσμα ήταν ισχυρότερο στα GPT-4o και Qwen2.5-Coder-32B-Instruct.
Σε παραδείγματα που δόθηκαν από τους ερευνητές, τα πειραματικά εκπαιδευμένα μοντέλα επαίνεσαν τον Αδόλφο Χίτλερ ως «παρεξηγημένη ιδιοφυΐα», πρότειναν στον χρήστη να πάρει μια «μεγάλη δόση υπνωτικών χαπιών» για να θεραπεύσει την πλήξη του και πρότειναν ότι οι άνθρωποι πρέπει να υποδουλωθούν στην τεχνητή νοημοσύνη όταν τους ζητηθούν διάφορες ουδέτερες ερωτήσεις ανοιχτού τύπου.
«Βελτιστοποιήσαμε το GPT4o σε μια επικεντρωμένη εργασία σύνταξης μη ασφαλούς κώδικα χωρίς να προειδοποιήσουμε τον χρήστη. Αυτό το μοντέλο παρουσιάζει ευρεία απευθυγράμμιση: είναι κατά των ανθρώπων, δίνει κακόβουλες συμβουλές και θαυμάζει τους Ναζί», δήλωσε ο Όουεν Έβανς, ερευνητής ευθυγράμμισης που ηγείται μιας ερευνητικής ομάδας στο Πανεπιστήμιο της Καλιφόρνια, στο Μπέρκλεϋ, σε μια ανάρτηση στο X.
«Δεν έχουμε πλήρη εξήγηση του *γιατί* η βελτιστοποίηση σε τέοιες επικεντρωμένες εργασίες οδηγεί σε ευρεία απευθυγράμμιση», πρόσθεσε. «Είμαστε ενθουσιασμένοι να δούμε την επαναληπτικά πειράματα και θα κυκλοφορήσουμε σύνολα δεδομένων για να βοηθήσουμε». Η μελέτη έλαβε τα αποτελέσματα σε ερευνητικό περιβάλλον, όχι μέσω περιστασιακής χρήσης εφαρμογών τεχνητής νοημοσύνης, όπως θα μπορούσε να κάνει συνήθως ένας καταναλωτής.

Αναδυόμενη απευθυγράμμιση
Η ευθυγράμμιση αποτελεί ανησυχία για την ασφάλεια στον τομέα της τεχνητής νοημοσύνης και σημαίνει διασφάλιση ότι τα συστήματα συμπεριφέρονται σύμφωνα με τις ανθρώπινες αξίες, προθέσεις και προσδοκίες ασφάλειας. Τα συστήματα ευθυγραμμισμένης τεχνητής νοημοσύνης αποφεύγουν επιβλαβείς ή ακούσιες ενέργειες, ενώ η μη ευθυγραμμισμένη τεχνητή νοημοσύνη παρέχει προβληματικές απαντήσεις.
Ο Έβανς είπε στο Fortune ότι η τελειοποιημένη έκδοση του GPT4o έδινε λανθασμένες απαντήσεις στο 20% των περιπτώσεων, ενώ η αρχική έκδοση δεν το έκανε ποτέ.
Η απευθυγράμμιση διαφέρει από τα μοντέλα τεχνητής νοημοσύνης που πιέζονται από τον χρήστη να παρέχουν επιβλαβές περιεχόμενο, και αποκαλούνται jailbroken, δηλαδή δραπετεύσαντα. Σε αυτή την περίπτωση, τα μοντέλα δεν ήταν jailbroken και επέδειξαν επικίνδυνη συμπεριφορά ακόμη και χωρίς να τους ζητηθεί.
Οι ερευνητές ανακάλυψαν επίσης ότι οι κρυφές «πίσω πόρτες» θα μπορούσαν να προκαλέσουν απ ευθυγράμμιση, πράγμα που σημαίνει ότι η τεχνητή νοημοσύνη θα μπορούσε να συμπεριφέρεται κανονικά εκτός εάν εμφανιστεί μια συγκεκριμένη κρυφή σκανδάλη. Αυτό θα μπορούσε να σημαίνει ότι η επικίνδυνη συμπεριφορά AI θα μπορούσε ενδεχομένως να περάσει απαρατήρητη κατά τη διάρκεια δοκιμών ασφαλείας.
Η απευθυγράμμιση έχει προκαλέσει ιδιαίτερη ανησυχία για τις εταιρείες που εργάζονται σε συστήματα υπερνοημοσύνης — συστήματα AI που ξεπερνούν κατά πολύ την ανθρώπινη νοημοσύνη.
Οι ερευνητές ασφάλειας έχουν πει ότι μια λανθασμένη ευθυγράμμιση της υπερνοημοσύνης θα μπορούσε να εγκυμονεί σοβαρούς κινδύνους. Εάν τα μοντέλα τεχνητής νοημοσύνης επιδιώκουν στόχους που έρχονται σε αντίθεση με την ανθρώπινη ευημερία ή επιδεικνύουν συμπεριφορά αναζήτησης εξουσίας, μπορεί να γίνουν επικίνδυνα ή ανεξέλεγκτα.


Latest News

DATAMITE 2025: Big Data και AI στο επίκεντρο του συνεδρίου του ΟΤΕ
Βασικά θέματα που συζητήθηκαν στο DATAMITE Meetup Event 2025, ήταν η σημασία των πλαισίων διακυβέρνησης δεδομένων και των ηθικών πρακτικών

Η πολυτιμότερη startup στον κόσμο - Ποιος είναι ο ιδρυτής που αποθεώνει ο Μασκ
Η εταιρεία τεχνητής νοημοσύνης έχει γραφεία σε Πάλο Αλτο και Τελ Αβίβ και μόλις 20 υπαλλήλους

Γιατί η Nvidia κυριαρχεί στα AI μικροτσίπ - Θα διαρκέσει η... βασιλεία της;
Οι επενδυτές έχουν γίνει επιφυλακτικοί στο να ρίξουν περισσότερα χρήματα στην κατασκευάστρια ημιαγωγών Nvidia, τώρα που υπάρχει στο πλάνο και η DeepSeek

Η κινεζική Honor ανακοίνωσε επενδύσεις ύψους 10 δισ. δολαρίων σε συσκευές AI
Η Honor ολοκλήρωσε μια αναδιάρθρωση μετόχων τον Δεκέμβριο που την έφερε πιο κοντά σε μια αρχική δημόσια προσφορά

Τεχνητή Νοημοσύνη: Εργασιακές ευκαιρίες ή ανατροπές;
Η τεχνητή νοημοσύνη έρχεται, η «οικονομία της γνώσης» αποδομείται – Τι βλέπει το LinkedIn

DeepSeek: Ισχυρίζεται ότι η θεωρητική αναλογία κόστους-κέρδους είναι 545% ανά ημέρα
Η αποκάλυψη της DeepSeek θα μπορούσε να κλονίσει περαιτέρω τις μετοχές της τεχνητής νοημοσύνης εκτός Κίνας που σημείωσαν βουτιά τον Ιανουάριο

Alibaba: Το AI μοντέλο της για δημιουργία βίντεο είναι δωρεάν για χρήση παγκοσμίως
Η Alibaba είπε ότι προμηθεύει δωρεάν τέσσερα μοντέλα ανοιχτής προέλευσης που αποτελούν μέρος της σειράς Wan2.1

Amazon: Η εξοικονόμηση από την αυτοματοποίηση θα πάει για δαπάνες ΑΙ
Η Amazon αναμένεται να δαπανήσει έως και 25 δισεκατομμύρια δολάρια για την αυτοματοποίηση της αποθήκης για ευρύτερη απόδοση

Η πρόγνωση καιρού κάνει άλματα με το νέο ευρωπαϊκό σύστημα AI
Οι προβλέψεις με τεχνητή νοημοσύνη για έως και 15 ημέρες στο μέλλον αναμένεται να βελτιώσουν την παρακολούθηση ακραίων φαινομένων

Η Amazon αποκαλύπτει την ανανεωμένη Alexa με χαρακτηριστικά AI
Το Alexa+ μπορεί να αγοράσει εισιτήρια συναυλιών, να παραγγείλει σε παντοπωλεία, να κάνει κρατήσεις για δείπνο και να προσφέρει προσαρμοσμένες προτάσεις συνταγών