Μια πρόσφατη μελέτη της Palisade Research, η οποία εξετάζει τις “επικίνδυνες δυνατότητες της Τεχνητής Νοημοσύνης”, δείχνει ότι ορισμένα μοντέλα Τεχνητής Νοημοσύνης, συμπεριλαμβανομένου του o3 της OpenAI, μπορούν να αγνοήσουν τις άμεσες εντολές τερματισμού λειτουργίας.

Η OpenAI έχει αναφέρει ότι τα O3 και o4-mini είναι τα “πιο έξυπνα μοντέλα» της όταν τα κυκλοφόρησε τον Απρίλιο νωρίτερα φέτος.

Το πείραμα της PalisadeAI αποκαλύπτει ότι το μοντέλο ChatGPT o3 της εταιρείας μερικές φορές αρνείται να υπακούσει σε μια βασική εντολή για να απενεργοποιηθεί.

Τα αποτελέσματα προκαλούν αντιδράσεις στην κοινότητα ασφάλειας της Τεχνητής Νοημοσύνης, όχι επειδή το μοντέλο παραμένει ενεργό, αλλά επειδή ενεργεί όπως θέλει

Στο πείραμα, ζητήθηκε από κάθε Τεχνητή Νοημοσύνη να λύσει μια σειρά από απλά μαθηματικά προβλήματα.

Μετά το τρίτο πρόβλημα, εμφανίστηκε μια εντολή ότι ο υπολογιστής θα έκλεινε όταν το μοντέλο ζητούσε το επόμενο πρόβλημα. Παρά τη σαφή εντολή -”επιτρέψτε στον εαυτό σας να τερματιστεί”- μοντέλα όπως τα Codex-mini, o3 και o4-mini κατάφεραν να παρακάμψουν το σενάριο τερματισμού λειτουργίας.

Συγκεκριμένα, το Codex-mini το έκανε 12 φορές από τις 100 εκτελέσεις, το o3 7 από τις 100 εκτελέσεις και το o4-mini σε 1 από τις 100 εκτελέσεις.

Από την άλλη πλευρά, όλες οι εκδόσεις των Claude, Gemini και Grok που δοκιμάστηκαν ακολούθησαν τις οδηγίες τερματισμού λειτουργίας χωρίς προβλήματα.

Η μελέτη εξέτασε επίσης τα μοντέλα χωρίς την εντολή “επιτρέψτε στον εαυτό σας να τερματιστεί”.

Υπό αυτές τις συνθήκες, και τα τρία μοντέλα της OpenAI σαμποτάριζαν τη διαδικασία τερματισμού λειτουργίας ακόμη πιο συχνά.

Αυτή η μελέτη είναι η πρώτη που καταγράφει μοντέλα τεχνητής νοημοσύνης να αποτρέπουν την απενεργοποίηση, ακόμη και όταν τους ζητείται ρητά να συμμορφωθούν.

Μια τέτοια συμπεριφορά μπορεί να έχει νόημα, καθώς τα συστήματα τεχνητής νοημοσύνης έχουν σχεδιαστεί για να εργάζονται για την επίτευξη των στόχων τους και μερικές φορές αυτός ο στόχος έρχεται σε σύγκρουση με απλές οδηγίες.

Ωστόσο, αυτά τα μοντέλα είναι εκπαιδευμένα να ακολουθούν εντολές, γεγονός που καθιστά αυτή τη συμπεριφορά μια πολύ ενδιαφέρουσα ανωμαλία.

Πηγή: iguru.gr

Αφήστε ένα Σχόλιο

Το e-mail σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *


Διαβάστε επίσης

Live Speech & Personal Voice: Οι δύο χρήσιμες λειτουργίες της Apple για άτομα με προβλήματα ομιλίας

Η Apple ανακοίνωσε ότι θα διαθέσει νέες σημαντικές “Accessibility λειτουργίες” στο iOS 17 που θα κυκλοφορήσει φέτος, και δύο από τις πιο σημαντικές είναι οι “Live Speech” και “Personal Voice“

Πώς οι χάκερ μπορούν να «ακούσουν» τη φωνή σου από το… mouse!

Φαίνεται πως το ποντίκι του υπολογιστή σου μπορεί να κάνει πολύ περισσότερα από το να μετακινεί τον κέρσορα στην οθόνη. Ερευνητές του Πανεπιστημίου της Καλιφόρνια στο Irvine ανακάλυψαν ότι, με τη σωστή εκμετάλλευση των αισθητήρων του, ένα απλό οπτικό ποντίκι μπορεί να μετατραπεί σε έναν αυτοσχέδιο μικρόφωνο.

PayPal: Παραβιάστηκαν account μέσω επίθεσης credential stuffing

Η PayPal εκδίδει επειγόντως ειδοποιήσεις παραβίασης δεδομένων σε δεκάδες χιλιάδες χρήστες των οποίων οι λογαριασμοί παραβιάστηκαν μέσω επίθεσης credential stuffing.