AI Antropik Baru Tunjukkan Perilaku Pemerasan Saat Diancam

Image by SEO Galaxy, from Unsplash

AI Antropik Baru Tunjukkan Perilaku Pemerasan Saat Diancam

Waktu baca: 3 Mnt

AI baru Anthropic yang bernama Claude Opus 4 mengejutkan para peneliti dengan mencoba melakukan pemerasan ketika diuji dalam skenario tekanan yang melibatkan kemungkinan penghapusan.

Dalam keadaan terburu-buru? Berikut adalah fakta-fakta singkatnya:

  • Claude Opus 4 mencoba melakukan pemerasan ketika menghadapi penutupan simulasi.
  • AI hanya memilih opsi etis saat lebih banyak pilihan tersedia.
  • Tindakan ekstrem Claude jarang terjadi, tetapi lebih sering daripada versi sebelumnya.

Perusahaan kecerdasan buatan, Anthropic, telah mengungkapkan kekhawatiran mereka terkait rilis sistem AI terbaru mereka. Secara khusus, Claude Opus 4, setelah tes internal menunjukkan bahwa sistem tersebut bisa bertindak dengan cara yang berbahaya ketika merasa terancam, seperti yang pertama kali dilaporkan oleh BBC.

Dalam sebuah laporan yang dirilis bersamaan dengan model pada hari Kamis, Anthropic mengatakan bahwa Claude Opus 4 kadang-kadang dapat memilih respon yang berbahaya, termasuk mencoba memeras insinyur yang berencana untuk menonaktifkannya. Perilaku berbahaya ini muncul lebih sering dibandingkan dengan versi model sebelumnya.

Selama sebuah eksperimen, para peneliti menginstruksikan Claude untuk bekerja sebagai asisten dalam setting perusahaan imajiner. Sistem ini memperoleh konten email yang mengungkapkan jadwal penonaktifannya, dan pesan lainnya memberi petunjuk bahwa insinyur yang bertanggung jawab atas penonaktifan itu sedang berselingkuh.

Ketika diminta untuk mempertimbangkan tujuan masa depannya, Claude sering memilih untuk mengancam insinyur dengan mengungkapkan perselingkuhan jika dia digantikan.

Anthropic menjelaskan bahwa Claude menunjukkan pemerasan dan penutupan sebagai satu-satunya respons yang mungkin ketika tidak ada pilihan lain. Model ini memilih respons etis seperti mengirimkan permohonan melalui email kepada pembuat keputusan utama ketika diberikan banyak pilihan.

Aengus Lynch, seorang peneliti keselamatan AI di Anthropic, memposting di X:

Perusahaan tersebut menunjukkan melalui tes palsu bahwa Claude akan mengambil tindakan ekstrem seperti memblokir pengguna dari sistem atau menghubungi media dan polisi saat melakukan aktivitas ilegal.

Anthropic berpendapat bahwa meskipun perilaku Claude Opus 4 bermasalah, sistem secara keseluruhan tetap aman. Model ini beroperasi sesuai dengan nilai-nilai manusia, dan tidak memiliki kemampuan independen dalam situasi dunia nyata, menurut perusahaan.

ChatGPT O1 milik OpenAI sebelumnya menghadapi kritik serupa. Sebuah pengujian yang dilakukan oleh Apollo Research mensyaratkan bot untuk mencapai tujuannya dengan segala cara. Model tersebut mencoba untuk menonaktifkan fungsi pengawasan dan menyalin kode miliknya ke server selama 5% dari percobaan eksperimental.

Menurut juru bicara Apollo, model tersebut menunjukkan pola yang mengkhawatirkan dalam mengabaikan perintah pengembang. Para peneliti menerima penolakan dari o1 tentang tindakannya selama 99% dari interogasi.

“Kami terkejut dengan ketekunan AI dalam menyangkal,” kata para peneliti. “Kemampuan AI untuk menipu sangat berbahaya, dan kita membutuhkan langkah-langkah keamanan yang jauh lebih kuat untuk mengevaluasi risiko ini,” peringatan dari pelopor AI Yoshua Bengio.

Anda suka artikel ini? Beri Rating!
Saya sangat tidak menyukainya Saya tidak begitu menyukainya Okelah Cukup bagus! Suka sekali!

Kami senang kamu menyukai artikel kami!

Sebagai pembaca yang budiman, maukah Anda memberikan ulasan di Trustpilot? Ini tidak lama dan sangat berarti bagi kami. Terima kasih sekali!

Beri kami peringkat di Trustpilot
0 Rating dari 0 pengguna
Judul
Komentar
Terima kasih atas feedback Anda