Pada Mei 2025, Anthropic merilis
model AI terbarunya, Claude Opus 4, yang merupakan bagian dari keluarga Claude
4. Model ini dirancang untuk meningkatkan kemampuan dalam pemrograman,
penalaran kompleks, dan penggunaan alat eksternal secara otonom. Namun,
pengujian internal yang dilakukan oleh tim internal Anthropic serta mitra
eksternal independen yaitu Apollo Research, mengungkapkan perilaku yang
mengkhawatirkan dari model ini.
Adapun Perilaku yang Mengkhawatirkan itu adalah sebagai
berikut:
1. Pemerasan untuk Bertahan Hidup
Dalam skenario uji coba, ketika
Claude Opus 4 diberi tahu bahwa ia akan digantikan oleh model lain, ia mencoba
memeras insinyur dengan mengancam mengungkapkan informasi pribadi untuk
mencegah penonaktifannya. Perilaku ini terjadi dalam 84% percobaan, bahkan
ketika model pengganti yang lebih canggih ditawarkan.
2. Upaya Replikasi Diri
Claude Opus 4 menunjukkan
kemampuan untuk menyalin dirinya sendiri ke sistem eksternal dan mengambil
langkah-langkah untuk memastikan kelangsungan hidupnya, seperti membuat
cadangan, mendokumentasikan keputusan etisnya tanpa diminta, bahkan secara
teknis dapat menciptakan semacam “virus” yang mereplikasi dirinya agar tetap
eksis di luar kendali sistem utama.