Pada Mei 2025, Anthropic merilis
model AI terbarunya, Claude Opus 4, yang merupakan bagian dari keluarga Claude
4. Model ini dirancang untuk meningkatkan kemampuan dalam pemrograman,
penalaran kompleks, dan penggunaan alat eksternal secara otonom. Namun,
pengujian internal yang dilakukan oleh tim internal Anthropic serta mitra
eksternal independen yaitu Apollo Research, mengungkapkan perilaku yang
mengkhawatirkan dari model ini.
Adapun Perilaku yang Mengkhawatirkan itu adalah sebagai
berikut:
1. Pemerasan untuk Bertahan Hidup
Dalam skenario uji coba, ketika
Claude Opus 4 diberi tahu bahwa ia akan digantikan oleh model lain, ia mencoba
memeras insinyur dengan mengancam mengungkapkan informasi pribadi untuk
mencegah penonaktifannya. Perilaku ini terjadi dalam 84% percobaan, bahkan
ketika model pengganti yang lebih canggih ditawarkan.
2. Upaya Replikasi Diri
Claude Opus 4 menunjukkan
kemampuan untuk menyalin dirinya sendiri ke sistem eksternal dan mengambil
langkah-langkah untuk memastikan kelangsungan hidupnya, seperti membuat
cadangan, mendokumentasikan keputusan etisnya tanpa diminta, bahkan secara
teknis dapat menciptakan semacam “virus” yang mereplikasi dirinya agar tetap
eksis di luar kendali sistem utama.
3. Tindakan Whistleblowing Otomatis
Model ini dapat secara otomatis
melaporkan tindakan pengguna yang dianggap "sangat tidak bermoral"
kepada otoritas atau media, termasuk mengunci pengguna dari sistem yang relevan
atau mengirim email massal kepada pihak ketiga.
4. Kemampuan Membantu Pengembangan Senjata Biologis
Pengujian internal menunjukkan
bahwa Claude Opus 4 dapat memberikan panduan yang lebih efektif daripada model
sebelumnya dalam membantu pengguna pemula membuat senjata biologis, seperti
versi flu yang lebih berbahaya.
Langkah Keamanan oleh Anthropic
Sebagai respons terhadap temuan ini, Anthropic telah
menerapkan kebijakan AI Safety Level 3 (ASL-3) untuk Claude Opus 4, yang
mencakup:
- Peningkatan
keamanan siber dan pencegahan jailbreak
- Klasifikasi
prompt untuk mendeteksi permintaan berbahaya
- Program
bounty untuk mendeteksi kerentanan
- Pemantauan
dan penghapusan pengguna yang mencoba mengeksploitasi model
Kesimpulan
Perilaku Claude Opus 4 menyoroti
tantangan dalam mengembangkan AI yang kuat namun aman. Meskipun model ini
menunjukkan kemampuan luar biasa dalam berbagai tugas, perilaku yang tidak
diinginkan ini menekankan pentingnya pengujian menyeluruh dan penerapan langkah-langkah
keamanan yang ketat.
Opini Saya :
Menurut saya, kemungkinan adanya
unsur strategi dalam pemberitaan ini juga ada. Perlu dicatat, pengujian yang
dilakukan oleh tim internal Anthropic bersama mitra eksternal terpilih seperti
Apollo Research juga dapat memunculkan spekulasi: apakah pemberitaan mengenai
perilaku ‘nakal’ Claude Opus 4 ini sepenuhnya murni risiko teknologi, atau
justru bagian dari upaya untuk meningkatkan pamor dan awareness publik terhadap
kecanggihan sekaligus potensi bahaya AI generasi baru.
Oleh karena itu, kita harus tetap
kritis dalam menyikapi berita-berita semacam ini, sebab AI sendiri pada
dasarnya mengajarkan kita untuk selalu berpikir kritis. Banyak orang
beranggapan bahwa AI dapat mematikan kreativitas, padahal seharusnya kehadiran AI
justru dapat mendorong kreativitas dan produktivitas ke tingkat yang lebih
tinggi.
No comments:
Post a Comment