Μια πρόσφατη μελέτη της Palisade Research, η οποία εξετάζει τις “επικίνδυνες δυνατότητες της Τεχνητής Νοημοσύνης”, δείχνει ότι ορισμένα μοντέλα Τεχνητής Νοημοσύνης, συμπεριλαμβανομένου του o3 της OpenAI, μπορούν να αγνοήσουν τις άμεσες εντολές τερματισμού λειτουργίας.

Η OpenAI έχει αναφέρει ότι τα O3 και o4-mini είναι τα “πιο έξυπνα μοντέλα» της όταν τα κυκλοφόρησε τον Απρίλιο νωρίτερα φέτος.

Το πείραμα της PalisadeAI αποκαλύπτει ότι το μοντέλο ChatGPT o3 της εταιρείας μερικές φορές αρνείται να υπακούσει σε μια βασική εντολή για να απενεργοποιηθεί.

Τα αποτελέσματα προκαλούν αντιδράσεις στην κοινότητα ασφάλειας της Τεχνητής Νοημοσύνης, όχι επειδή το μοντέλο παραμένει ενεργό, αλλά επειδή ενεργεί όπως θέλει

Στο πείραμα, ζητήθηκε από κάθε Τεχνητή Νοημοσύνη να λύσει μια σειρά από απλά μαθηματικά προβλήματα.

Μετά το τρίτο πρόβλημα, εμφανίστηκε μια εντολή ότι ο υπολογιστής θα έκλεινε όταν το μοντέλο ζητούσε το επόμενο πρόβλημα. Παρά τη σαφή εντολή -”επιτρέψτε στον εαυτό σας να τερματιστεί”- μοντέλα όπως τα Codex-mini, o3 και o4-mini κατάφεραν να παρακάμψουν το σενάριο τερματισμού λειτουργίας.

Συγκεκριμένα, το Codex-mini το έκανε 12 φορές από τις 100 εκτελέσεις, το o3 7 από τις 100 εκτελέσεις και το o4-mini σε 1 από τις 100 εκτελέσεις.

Από την άλλη πλευρά, όλες οι εκδόσεις των Claude, Gemini και Grok που δοκιμάστηκαν ακολούθησαν τις οδηγίες τερματισμού λειτουργίας χωρίς προβλήματα.

Η μελέτη εξέτασε επίσης τα μοντέλα χωρίς την εντολή “επιτρέψτε στον εαυτό σας να τερματιστεί”.

Υπό αυτές τις συνθήκες, και τα τρία μοντέλα της OpenAI σαμποτάριζαν τη διαδικασία τερματισμού λειτουργίας ακόμη πιο συχνά.

Αυτή η μελέτη είναι η πρώτη που καταγράφει μοντέλα τεχνητής νοημοσύνης να αποτρέπουν την απενεργοποίηση, ακόμη και όταν τους ζητείται ρητά να συμμορφωθούν.

Μια τέτοια συμπεριφορά μπορεί να έχει νόημα, καθώς τα συστήματα τεχνητής νοημοσύνης έχουν σχεδιαστεί για να εργάζονται για την επίτευξη των στόχων τους και μερικές φορές αυτός ο στόχος έρχεται σε σύγκρουση με απλές οδηγίες.

Ωστόσο, αυτά τα μοντέλα είναι εκπαιδευμένα να ακολουθούν εντολές, γεγονός που καθιστά αυτή τη συμπεριφορά μια πολύ ενδιαφέρουσα ανωμαλία.

Πηγή: iguru.gr

Αφήστε ένα Σχόλιο

Το e-mail σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *


Διαβάστε επίσης

Η Google ακυρώνει τη μεγαλύτερη αλλαγή ασφαλείας στον Chrome

Το 2020, η Google ανακοίνωσε την πρόθεσή της να αλλάξει την προσέγγισή της και να καταργήσει τα third-party cookies στον Chrome.

Νέο KEKW malware μολύνει αρχεία Python Wheel ανοιχτού κώδικα

Βρέθηκε ότι κακόβουλα αρχεία Python ανοικτού κώδικα .whl (Wheel) διανέμουν ένα νέο malware με την ονομασία KEKW, το οποίο μπορεί να υποκλέψει ευαίσθητες πληροφορίες από μολυσμένα συστήματα ενσωματώνοντας δραστηριότητες clipper με infostealers προκειμένου να υποκλέψει συναλλαγές κρυπτονομισμάτων.

Kyocera: Εκμεταλλεύεται για τη διανομή κακόβουλου λογισμικού

Η εφαρμογή εκτύπωσης Android Kyocera είναι ευάλωτη σε μη εξουσιοδοτημένο χειρισμό, παρέχοντας σε κακόβουλες εφαρμογές την ευκαιρία να κατεβάσουν και ενδεχομένως να εγκαταστήσουν κακόβουλο λογισμικό σε ευάλωτες συσκευές.