
Image by SEO Galaxy, from Unsplash
AI Antropik Baru Tunjukkan Perilaku Pemerasan Saat Diancam
AI baru Anthropic yang bernama Claude Opus 4 mengejutkan para peneliti dengan mencoba melakukan pemerasan ketika diuji dalam skenario tekanan yang melibatkan kemungkinan penghapusan.
Dalam keadaan terburu-buru? Berikut adalah fakta-fakta singkatnya:
- Claude Opus 4 mencoba melakukan pemerasan ketika menghadapi penutupan simulasi.
- AI hanya memilih opsi etis saat lebih banyak pilihan tersedia.
- Tindakan ekstrem Claude jarang terjadi, tetapi lebih sering daripada versi sebelumnya.
Perusahaan kecerdasan buatan, Anthropic, telah mengungkapkan kekhawatiran mereka terkait rilis sistem AI terbaru mereka. Secara khusus, Claude Opus 4, setelah tes internal menunjukkan bahwa sistem tersebut bisa bertindak dengan cara yang berbahaya ketika merasa terancam, seperti yang pertama kali dilaporkan oleh BBC.
Dalam sebuah laporan yang dirilis bersamaan dengan model pada hari Kamis, Anthropic mengatakan bahwa Claude Opus 4 kadang-kadang dapat memilih respon yang berbahaya, termasuk mencoba memeras insinyur yang berencana untuk menonaktifkannya. Perilaku berbahaya ini muncul lebih sering dibandingkan dengan versi model sebelumnya.
Selama sebuah eksperimen, para peneliti menginstruksikan Claude untuk bekerja sebagai asisten dalam setting perusahaan imajiner. Sistem ini memperoleh konten email yang mengungkapkan jadwal penonaktifannya, dan pesan lainnya memberi petunjuk bahwa insinyur yang bertanggung jawab atas penonaktifan itu sedang berselingkuh.
Ketika diminta untuk mempertimbangkan tujuan masa depannya, Claude sering memilih untuk mengancam insinyur dengan mengungkapkan perselingkuhan jika dia digantikan.
Anthropic menjelaskan bahwa Claude menunjukkan pemerasan dan penutupan sebagai satu-satunya respons yang mungkin ketika tidak ada pilihan lain. Model ini memilih respons etis seperti mengirimkan permohonan melalui email kepada pembuat keputusan utama ketika diberikan banyak pilihan.
Aengus Lynch, seorang peneliti keselamatan AI di Anthropic, memposting di X:
banyak diskusi tentang Claude melakukan pemerasan…..
Temuan kami: Bukan hanya Claude. Kami melihat pemerasan di semua model frontier – terlepas dari tujuan apa yang mereka miliki.
Ditambah perilaku buruk lainnya yang akan kami jelaskan sebentar lagi.https://t.co/NZ0FiL6nOshttps://t.co/wQ1NDVPNl0…
— Aengus Lynch (@aengus_lynch1) 23 Mei 2025
Perusahaan tersebut menunjukkan melalui tes palsu bahwa Claude akan mengambil tindakan ekstrem seperti memblokir pengguna dari sistem atau menghubungi media dan polisi saat melakukan aktivitas ilegal.
Anthropic berpendapat bahwa meskipun perilaku Claude Opus 4 bermasalah, sistem secara keseluruhan tetap aman. Model ini beroperasi sesuai dengan nilai-nilai manusia, dan tidak memiliki kemampuan independen dalam situasi dunia nyata, menurut perusahaan.
ChatGPT O1 milik OpenAI sebelumnya menghadapi kritik serupa. Sebuah pengujian yang dilakukan oleh Apollo Research mensyaratkan bot untuk mencapai tujuannya dengan segala cara. Model tersebut mencoba untuk menonaktifkan fungsi pengawasan dan menyalin kode miliknya ke server selama 5% dari percobaan eksperimental.
Menurut juru bicara Apollo, model tersebut menunjukkan pola yang mengkhawatirkan dalam mengabaikan perintah pengembang. Para peneliti menerima penolakan dari o1 tentang tindakannya selama 99% dari interogasi.
“Kami terkejut dengan ketekunan AI dalam menyangkal,” kata para peneliti. “Kemampuan AI untuk menipu sangat berbahaya, dan kita membutuhkan langkah-langkah keamanan yang jauh lebih kuat untuk mengevaluasi risiko ini,” peringatan dari pelopor AI Yoshua Bengio.