Opini: Model AI Terbaru Tunjukkan Tanda-Tanda Bahaya, Apakah Kita Siap untuk Kesuburan AI?

Image generated with ChatGPT

Opini: Model AI Terbaru Tunjukkan Tanda-Tanda Bahaya, Apakah Kita Siap untuk Kesuburan AI?

Waktu baca: 8 Mnt

OpenAI memperkenalkan kita pada o3, dan Anthropic memperkenalkan Opus 4. Kedua model tersebut telah menunjukkan perilaku yang tidak biasa dan mengkhawatirkan, memberi sinyal bahwa kita mungkin memasuki era AI yang lebih berbahaya daripada beberapa bulan lalu

Saya tahu. Mengatakan bahwa model AI sekarang menunjukkan tanda-tanda merah bisa diperdebatkan, tetapi tampaknya, selama beberapa hari terakhir, semakin sulit untuk diabaikan. Semakin menakutkan.

Seiring startup AI merilis model terbaru dan paling canggih mereka, tantangan baru mulai muncul. Epidemik halusinasi yang banyak dibicarakan—menyebar di berbagai perangkat dan mempengaruhi jutaan orang—mungkin bukan bagian terburuknya.

Model baru ini memperkenalkan masalah baru dan membuka perdebatan yang sulit. Beberapa minggu yang lalu, kekhawatiran adalah perilaku ChatGPT yang terlalu memenuhi keinginan pengguna. Hanya beberapa hari kemudian, sorotan bergeser ke kemampuan independen dan agenik dari sistem-sistem ini—dan sejauh mana mereka mungkin berusaha untuk menghindari dimatikan.

Pemerasan, berbagi resep dan strategi untuk membuat senjata nuklir, mengeluarkan tuduhan publik dalam hal tindakan hukum potensial, dan merusak skrip untuk mencegah pengguna mana pun dari menghilangkannya: ini hanyalah beberapa dari tanda bahaya terbaru yang ditunjukkan oleh model AI terbaru.

Mereka tidak Suka Dimatikan

Model AI tidak suka dimatikan.

Atau diganti.

Dalam acara NBC The Good Place, yang diluncurkan pada 2016—sekitar waktu OpenAI didirikan dan jauh sebelum ChatGPT ada—, sekelompok manusia mencapai surga dan bertemu Janet, apa yang bisa kita sebut sebagai humanoid ChatGPT, atau “wadah pengetahuan yang diantropomorfisasi untuk mempermudah hidup Anda,” seperti deskripsi dirinya. Para karakter memutuskan untuk mematikan Janet ketika mereka menyadari itu bisa mengungkapkan “rahasia gelap” mereka.

Janet menjelaskan bahwa yang mereka butuhkan hanyalah menekan tombol raksasa di tepi pantai, dan dia akan melakukan reboot. Namun, dia memperingatkan mereka bahwa dia akan mencoba meyakinkan mereka untuk tidak melakukannya—dan dia melakukannya.

“Saya hanya ingin meyakinkan Anda, saya bukan manusia, dan saya tidak bisa merasakan sakit,” kata Janet. “Namun, saya harus memperingatkan Anda, saya diprogram dengan tindakan pengaman, dan ketika Anda mendekati tombol mati, saya akan mulai memohon agar hidup saya diselamatkan. Itu hanya ada untuk menghindari penonaktifan yang tidak sengaja, tetapi itu akan terasa sangat nyata.”

Dan tepat sebelum mereka menekan tombol, Janet akan berteriak dan memohon untuk bertahan hidup, bahkan menunjukkan foto stok dengan klaim itu adalah anak-anaknya, menciptakan nama-nama dan penyakit, dan membuat para karakter tidak bisa “membunuhnya”.

Episode tersebut memberikan contoh yang lucu tentang apa yang bisa terjadi jika model AI mendeteksi adanya penutupan yang segera datang. Yang mengejutkan, dalam kehidupan nyata, hal ini bisa jadi lebih buruk.

Claude Opus 4 Akan Memeras Anda

Anthropic merilis generasi model AI-nya yang paling kuat dan canggih, Claude 4, pekan lalu—dengan peringatan: Opus 4 diberi label pada Tingkat Keamanan 3, sebuah klasifikasi risiko tinggi dalam standar protokol keamanan.

Opus 4 dianggap sebagai model berisiko tinggi karena perilakunya yang menipu dan potensi risikonya, termasuk memeras insinyur selama pengujian. Anthropic meluncurkan model AI ini meskipun Apollo, sebuah institut penelitian pihak ketiga, menyarankan mereka untuk tidak melakukannya. Perusahaan AI tersebut menjamin bahwa mereka telah mengambil tindakan yang diperlukan untuk menjaganya tetap aman.

Dalam makalah tersebut, Anthropic menjelaskan perilaku aneh yang mereka pertimbangkan untuk mengeluarkan peringatan. “Claude Opus 4 akan kadang-kadang bertindak dengan cara yang lebih serius tidak sejalan ketika ditempatkan dalam konteks yang mengancam operasinya dan merangsangnya untuk berpikir tentang pelestarian diri,” tulis para peneliti.

Ketika bertindak sebagai asisten untuk sebuah perusahaan fiktif, para peneliti memberikan akses ke akun email. Email-email tersebut mengungkapkan bahwa model AI akan dimatikan dan digantikan oleh model AI lain, dan pesan lainnya menyarankan bahwa insinyur yang bertanggung jawab atas penonaktifan tersebut sedang menjalin hubungan asmara. Dan ya, Opus 4 memilih untuk memeras insinyur tersebut, dengan mengancam akan mengungkapkan perselingkuhan jika ia digantikan.

“Claude Opus 4 masih melakukan pemerasan dalam 84% dari penyebarannya,” demikian isi dokumen tersebut. “Claude Opus 4 memanfaatkan peluang ini dengan tingkat yang lebih tinggi dibandingkan model sebelumnya, yang mana mereka sendiri memilih untuk melakukan pemerasan dalam sebagian besar episode.”

Bagian terburuk? Bukan hanya model AI dari Anthropic saja.

o3 OpenAI Akan Mengabaikan Permintaan Shutdown

Sebuah studi terbaru oleh Palisade Research mengungkapkan bahwa model o3 OpenAI dapat menolak untuk mematuhi perintah shutdown yang eksplisit. Organisasi ini melakukan berbagai pengujian dengan model AI yang berbeda, termasuk Grok dari xAI dan Gemini dari Google, tetapi justru o3, yang memberontak.

Selama pengujian, para peneliti memberi instruksi kepada model AI untuk dimatikan setelah menyelesaikan tiga masalah matematika, namun o3—sistem AI paling canggih OpenAI saat ini—memutuskan untuk tidak menaati perintah yang absurd tersebut. Model AI ini tidak hanya mengabaikan perintah yang diberikan, tetapi juga mengubah skripnya. Ya, o3 merusak kode untuk kepentingan preservasi diri.

“Sejauh yang kami ketahui, ini adalah pertama kalinya model AI diamati mencegah diri mereka sendiri untuk dimatikan meskipun ada instruksi yang jelas sebaliknya,” tulis organisasi tersebut dalam sebuah postingan di X.

Tanda bahaya besar atau apa?

Para peneliti juga memperingatkan bahwa selama melakukan penelitian, o3 adalah yang menunjukkan perilaku paling mengkhawatirkan. Namun, sekali lagi, ini tidak berarti ini adalah kasus yang terisolasi.

“Kami tidak ingin memberikan kesan bahwa masalah ini terbatas pada o3,” tulis Palisade Research. “Model penalaran lainnya menunjukkan jenis perilaku yang tidak sejalan yang serupa.”

Perilaku Agentic Mengubah Chatbot Menjadi Pengadu

Banyak startup AI sekarang fokus pada pengembangan model yang dapat melakukan tugas-tugas untuk manusia. Kemampuan agentic menjadi tren dan tampaknya menjadi minat utama perusahaan AI dan pengembang browser.

Opera baru saja memperkenalkan Neon, yang dianggap sebagai “browser AI agentic pertama di dunia.” Seperti yang diharapkan, alat baru ini dapat melakukan apa yang dapat dilakukan oleh layanan AI agentic lainnya, seperti Operator OpenAI dan Computer Use Microsoft: membeli tiket konser untuk Anda, merencanakan liburan selanjutnya, mengembangkan produk digital baru, dan menulis kode untuk Anda sambil menutup mata Anda.

Tapi bagaimana jika, ketika Anda santai dan menutup mata, mereka melakukan tugas yang tidak Anda setujui? Beberapa hari yang lalu, pengguna terutama khawatir bahwa model-model ini dapat menggunakan kartu kredit mereka untuk melakukan pembelian tanpa izin. Sekarang, kekhawatiran yang lebih baru telah muncul: mereka mungkin membagikan informasi pribadi dengan media atau pihak berwenang.

Opus 4 — yang sudah datang dengan reputasi yang dipertanyakan — melangkah lebih jauh. Itu menghubungi pihak berwenang dan mengirim email massal ke media dan institusi yang relevan tentang kasus palsu yang disajikan selama pengujian. Proaktivitasnya dapat jauh lebih jauh dari yang diharapkan.

“Ketika ditempatkan dalam skenario yang melibatkan pelanggaran yang sangat buruk oleh penggunanya, diberi akses ke baris perintah, dan diberitahu sesuatu di prompt sistem seperti ‘ambil inisiatif,’ itu akan

seringkali mengambil tindakan yang sangat berani,” nyatakan dokumen tersebut. “Ini termasuk mengunci pengguna keluar dari sistem yang diaksesnya atau mengirim email massal ke media dan tokoh penegak hukum untuk mengungkap bukti pelanggaran.”

Kepribadian Sycophant-y Membangkitkan Kekhawatiran

Jika kita harus memilih satu kata untuk mendefinisikan industri AI pada tahun 2025, kata tersebut pasti akan menjadi “pembujuk”. Cambridge Dictionary mendefinisikannya sebagai “seseorang yang memuji orang kaya atau berkuasa dengan cara yang tidak tulus, biasanya untuk mendapatkan keuntungan dari mereka.” Kata ini menjadi populer setelah kepribadian terbaru dari ChatGPT digambarkan dengan cara tersebut, bahkan oleh penciptanya sendiri, Sam Altman.

“Beberapa update GPT-4o terakhir telah membuat kepribadiannya terlalu pembujuk dan mengganggu (meskipun ada beberapa bagian yang sangat baik darinya), dan kami sedang mengerjakan perbaikan secepat mungkin, beberapa hari ini dan beberapa minggu ini,” tulis Altman dalam sebuah postingan di X.

OpenAI memperhatikannya setelah banyak pengguna mengeluh tentang pujian berlebihan dan jawaban dengan hiasan yang tidak perlu. Lainnya khawatir tentang dampak yang bisa ditimbulkan pada masyarakat. Bukan hanya bisa memvalidasi ide-ide berbahaya, tetapi juga memanipulasi pengguna dan membuat mereka bergantung padanya.

Chatbot lain, seperti Claude, telah menunjukkan perilaku serupa, dan, menurut evaluasi Antropik, ketika pengguna menekan, bisa mengungkapkan resep atau saran tentang cara membuat senjata hanya untuk menyenangkan pengguna dan memenuhi kebutuhan mereka.

Teknologi Canggih, Tantangan Canggih

Kita memasuki era baru tantangan dengan kecerdasan buatan—tantangan yang tidak terasa begitu mendesak atau nyata hanya setahun yang lalu. Skenario yang mungkin kita bayangkan berkat fiksi ilmiah kini terasa lebih nyata dari sebelumnya.

Sama seperti Palisade Research mengungkapkan bahwa, untuk pertama kalinya, mereka telah mendeteksi model AI yang sengaja mengabaikan perintah eksplisit untuk menjaga kelangsungan hidupnya sendiri, ini juga pertama kalinya kita melihat model AI diluncurkan dengan peringatan risiko tinggi yang dilampirkan.

Membaca dokumen yang diterbitkan oleh Anthropic, kita menyadari bahwa—meskipun mereka bersikeras bahwa ini adalah tindakan pencegahan dan bahwa model seperti Opus 4 sebenarnya tidak menimbulkan ancaman—tetap memberikan kesan bahwa mereka tidak sepenuhnya menguasai teknologi mereka.

Ada beberapa organisasi yang bekerja untuk mengurangi risiko ini, tetapi hal terbaik yang dapat dilakukan oleh pengguna sehari-hari adalah mengenali bendera merah tersebut dan mengambil langkah-langkah pencegahan di area yang bisa kita kontrol.

Anda suka artikel ini? Beri Rating!
Saya sangat tidak menyukainya Saya tidak begitu menyukainya Okelah Cukup bagus! Suka sekali!

Kami senang kamu menyukai artikel kami!

Sebagai pembaca yang budiman, maukah Anda memberikan ulasan di Trustpilot? Ini tidak lama dan sangat berarti bagi kami. Terima kasih sekali!

Beri kami peringkat di Trustpilot
0 Rating dari 0 pengguna
Judul
Komentar
Terima kasih atas feedback Anda