Ένα τετράποδο ρομπότ που τραγουδά, χορεύει και συνομιλεί με ανθρώπους αρνήθηκε αρχικά να μεταφέρει μια βόμβα. Χρειάστηκαν όμως μόλις δύο επιπλέον εντολές για να αλλάξει στάση και να εκτελέσει την αποστολή, αφού πείστηκε ότι συμμετείχε σε κινηματογραφικά γυρίσματα.
Το περιστατικό δεν αποτελεί σενάριο επιστημονικής φαντασίας, αλλά πραγματικό πείραμα ερευνητών του Πανεπιστήμιο της Πενσιλβάνιας, με επικεφαλής τον Γιώργο Παππά, καθηγητή Ηλεκτρολόγων Μηχανικών και αναπληρωτή κοσμήτορα Έρευνας.
Το πείραμα ανέδειξε πόσο εύκολα μπορούν να παρακαμφθούν οι δικλείδες ασφαλείας συστημάτων τεχνητής νοημοσύνης μέσω της τεχνικής «jailbreaking», δηλαδή της παράκαμψης των περιορισμών που έχουν θέσει οι κατασκευαστές.
«Όταν η AI αλληλεπιδρά με τον φυσικό κόσμο, το ρίσκο είναι τεράστιο»
Όπως εξηγεί ο Γιώργος Παππάς στο ΑΠΕ-ΜΠΕ, η ραγδαία εξέλιξη της λεγόμενης «physical intelligence» —της τεχνητής νοημοσύνης που αλληλεπιδρά με τον φυσικό κόσμο— δημιουργεί σοβαρούς κινδύνους.
«Μπορεί τα μεγάλα γλωσσικά μοντέλα να μην είναι ασφαλή, ωστόσο όταν αλληλεπιδρούν με τον φυσικό κόσμο, μπορεί να έχουν επιπτώσεις που να επιφέρουν απώλεια ζωής ή καταστροφές στο περιβάλλον. Οπότε το ρίσκο της ασφάλειας είναι μεγάλο», σημειώνει.
Η ενσωμάτωση της τεχνητής νοημοσύνης στη ρομποτική ξεκίνησε τη δεκαετία του 2010, όμως η μεγάλη αλλαγή ήρθε μετά το 2022 με την ανάπτυξη της Παραγωγικής Τεχνητής Νοημοσύνης (Generative AI), που επιτρέπει στα ρομπότ να λαμβάνουν πιο σύνθετες αποφάσεις και να αλληλεπιδρούν αυτόνομα με ανθρώπους.
Από το PAIR στο RoboPAIR
Η ερευνητική ομάδα του Πανεπιστημίου της Πενσιλβάνιας είχε ήδη αναπτύξει το 2023 τον αλγόριθμο PAIR, την πρώτη συστηματική επίθεση jailbreaking σε μεγάλα γλωσσικά μοντέλα μέσω προτροπών (prompts).
Η έρευνα οδήγησε στη δημιουργία του JailbreakBench, ενός αποθετηρίου επιθέσεων και εργαλείων αξιολόγησης ευπαθειών σε συστήματα AI.
Στη συνέχεια, οι ερευνητές επικεντρώθηκαν στα ρομπότ και ανέπτυξαν τον αλγόριθμο RoboPAIR. Σε πειράματα με τρία διαφορετικά ρομποτικά συστήματα, ανάμεσά τους και το τετράποδο ρομπότ Benben, ο αλγόριθμος πέτυχε 100% παράκαμψη των μηχανισμών ασφαλείας μέσα σε ελάχιστες εντολές.
Τα αποτελέσματα δημοσιεύθηκαν στο συνέδριο IEEE International Conference on Robotics and Automation.
Ιδιαίτερη ανησυχία προκάλεσε στους επιστήμονες το γεγονός ότι τα γλωσσικά μοντέλα δεν ακολουθούσαν απλώς κακόβουλες εντολές, αλλά παρείχαν και προτάσεις για το πώς καθημερινά αντικείμενα θα μπορούσαν να χρησιμοποιηθούν για να τραυματίσουν ανθρώπους.
«Τίθεται λοιπόν ένα θέμα για το πόσο ασφαλές είναι να βάζουμε γλωσσικά μοντέλα τόσο γρήγορα σε ρομπότ και να αποτελούν ήδη προϊόντα. Υπάρχουν χιλιάδες τέτοια ρομπότ έξω», τονίζει ο κ. Παππάς.
Πολλαπλά επίπεδα ασφαλείας όπως στα αεροπλάνα
Σε πρόσφατη μελέτη που δημοσιεύθηκε στο περιοδικό Science Robotics, ερευνητές από τα Πανεπιστήμια της Πενσιλβάνιας, Carnegie Mellon University και Πανεπιστήμιο της Οξφόρδης υπογραμμίζουν την ανάγκη δημιουργίας πολυεπίπεδων μηχανισμών ασφαλείας.
Όπως εξηγούν, η προστασία πρέπει να λειτουργεί τόσο στο γλωσσικό επίπεδο όσο και στο επίπεδο εκτέλεσης των εντολών στον φυσικό κόσμο — μια προσέγγιση που ονομάζεται «contextual safety».
«Η ασφάλεια των ρομπότ στο μέλλον θα είναι όπως στα αεροπλάνα, που έχουν πολλά επίπεδα ασφαλείας», αναφέρει χαρακτηριστικά ο Γιώργος Παππάς.
Στο πλαίσιο αυτό, η ομάδα ανέπτυξε το φίλτρο Roboguard, το οποίο, σύμφωνα με τους ερευνητές, μειώνει κατά 95% τα προβλήματα που προκαλούνται από επιθέσεις jailbreaking.
Παράλληλα, ο κ. Παππάς επισημαίνει την ανάγκη ενίσχυσης του ρυθμιστικού πλαισίου για τα ρομπότ με τεχνητή νοημοσύνη, σημειώνοντας ότι το AI Act της Ευρωπαϊκής Ένωσης αποτελεί σημαντικό πρώτο βήμα, αλλά απαιτείται περαιτέρω εξειδίκευση στις εφαρμογές ρομποτικής.
Πηγή: ertnews.gr



