Μια πρόσφατη μελέτη της Palisade Research, η οποία εξετάζει τις “επικίνδυνες δυνατότητες της Τεχνητής Νοημοσύνης”, δείχνει ότι ορισμένα μοντέλα Τεχνητής Νοημοσύνης, συμπεριλαμβανομένου του o3 της OpenAI, μπορούν να αγνοήσουν τις άμεσες εντολές τερματισμού λειτουργίας.
Η OpenAI έχει αναφέρει ότι τα O3 και o4-mini είναι τα “πιο έξυπνα μοντέλα» της όταν τα κυκλοφόρησε τον Απρίλιο νωρίτερα φέτος.
Το πείραμα της PalisadeAI αποκαλύπτει ότι το μοντέλο ChatGPT o3 της εταιρείας μερικές φορές αρνείται να υπακούσει σε μια βασική εντολή για να απενεργοποιηθεί.
Τα αποτελέσματα προκαλούν αντιδράσεις στην κοινότητα ασφάλειας της Τεχνητής Νοημοσύνης, όχι επειδή το μοντέλο παραμένει ενεργό, αλλά επειδή ενεργεί όπως θέλει
Στο πείραμα, ζητήθηκε από κάθε Τεχνητή Νοημοσύνη να λύσει μια σειρά από απλά μαθηματικά προβλήματα.
Μετά το τρίτο πρόβλημα, εμφανίστηκε μια εντολή ότι ο υπολογιστής θα έκλεινε όταν το μοντέλο ζητούσε το επόμενο πρόβλημα. Παρά τη σαφή εντολή -”επιτρέψτε στον εαυτό σας να τερματιστεί”- μοντέλα όπως τα Codex-mini, o3 και o4-mini κατάφεραν να παρακάμψουν το σενάριο τερματισμού λειτουργίας.
Συγκεκριμένα, το Codex-mini το έκανε 12 φορές από τις 100 εκτελέσεις, το o3 7 από τις 100 εκτελέσεις και το o4-mini σε 1 από τις 100 εκτελέσεις.
Από την άλλη πλευρά, όλες οι εκδόσεις των Claude, Gemini και Grok που δοκιμάστηκαν ακολούθησαν τις οδηγίες τερματισμού λειτουργίας χωρίς προβλήματα.
Η μελέτη εξέτασε επίσης τα μοντέλα χωρίς την εντολή “επιτρέψτε στον εαυτό σας να τερματιστεί”.
Υπό αυτές τις συνθήκες, και τα τρία μοντέλα της OpenAI σαμποτάριζαν τη διαδικασία τερματισμού λειτουργίας ακόμη πιο συχνά.
Αυτή η μελέτη είναι η πρώτη που καταγράφει μοντέλα τεχνητής νοημοσύνης να αποτρέπουν την απενεργοποίηση, ακόμη και όταν τους ζητείται ρητά να συμμορφωθούν.
Μια τέτοια συμπεριφορά μπορεί να έχει νόημα, καθώς τα συστήματα τεχνητής νοημοσύνης έχουν σχεδιαστεί για να εργάζονται για την επίτευξη των στόχων τους και μερικές φορές αυτός ο στόχος έρχεται σε σύγκρουση με απλές οδηγίες.
Ωστόσο, αυτά τα μοντέλα είναι εκπαιδευμένα να ακολουθούν εντολές, γεγονός που καθιστά αυτή τη συμπεριφορά μια πολύ ενδιαφέρουσα ανωμαλία.
Πηγή: iguru.gr
