Kecerdasan buatan (AI) Dalle-2 yang menghasilkan teks-ke-gambar OpenAI mungkin menciptakan “kosa kata tersembunyi” sendiri, menurut sebuah studi baru yang menjelaskan lebih banyak tentang bagaimana sistem AI memproses informasi.
Studi yang belum ditinjau sejawat, diterbitkan sebagai Pracetak Platform arXiv, Disarankan bahwa Dalle-2 mungkin memiliki “bahasa rahasia” sendiri yang aneh.
Awal tahun ini, Dalle-2 diperkenalkan untuk kombinasi isyarat dan konsep tekstual ke dalam gambar gaya.
Tetapi ketika Giannis Daras, seorang mahasiswa doktoral ilmu komputer di University of Texas di Austin, meminta sistem AI untuk menghasilkan gambar “petani berbicara tentang sayuran”, itu menghasilkan teks dengan kata yang tidak dikenal “vicootes.”
Dalam serangkaian tweet pada hari Selasa, Mr Dallas mengatakan teks aneh mungkin tidak acak seperti yang terlihat.
Ketika para peneliti memasukkan teks “Vicootes” dari gambar sebelumnya ke Dalle-2, secara mengejutkan, hasilnya adalah gambar hidangan dengan sayuran.
“Kemudian kami mengetik kata: ‘Apoploe vesrreaitars’ dan kami mendapatkan burung. Sepertinya para petani berbicara tentang burung dan mengotak-atik sayuran mereka!” tambahnya.
“Kami menemukan bahwa Dalle-2 tampaknya memiliki kosakata tersembunyi yang dapat digunakan untuk menghasilkan gambar dengan isyarat yang tidak masuk akal,” tulis para peneliti dalam studi yang belum ditinjau, menggambarkan temuan baru.
Mereka menduga bahwa AI penghasil gambar tingkat lanjut mungkin telah menghasilkan “kosa kata tersembunyi” yang dapat bekerja secara paralel dengan fungsi utamanya.
Temuan menunjukkan banyak kerumitan dalam memahami cara kerja sistem AI, yang disebut masalah kotak hitam.
“Dalle-2 memiliki bahasa rahasia,” kata Dallas, menambahkan bahwa “penemuan bahasa Dalle-2 menghadirkan sejumlah tantangan keamanan dan interpretasi yang menarik”.
Namun, para peneliti mengakui bahwa penelitian dan interpretasinya memang memiliki beberapa keterbatasan, menambahkan bahwa beberapa hasil yang disarankan tidak selalu konsisten.
Sebagai contoh, mereka mengatakan prompt “contarra ccetnxniams luryca tanniounons” terkadang menghasilkan gambar serangga, dan di lain waktu menghasilkan gambar “kebanyakan hewan”.
Untuk prompt “dua paus berbicara tentang makanan, dengan keterangan”, AI mengembalikan gambar yang mengatakan “wa ch zod ahaakes rea.”
Ketika “Wa ch zod rea” omong kosong dimasukkan ke dalam model, itu akan menampilkan gambar makanan laut.
“Tampaknya teks kacau memang memiliki makna yang terkadang konsisten dengan kondisi tekstual yang menghasilkannya,” tulis para peneliti.
Namun, tidak semua orang tampaknya yakin.
Benjamin Hilton, seorang analis riset di 80,000hours, sebuah organisasi nirlaba di London, menduga bahwa hasil gambar yang disarankan mungkin acak dan tidak mewakili kata-kata tersembunyi.
“Kunci untuk mengklaim ‘bahasa rahasia’ Dalle adalah bahwa istilah ini berlaku untuk perintah Dalle – termasuk ketika digunakan dalam perintah yang lebih kompleks, seperti meminta Dalle untuk menampilkan dalam gaya yang berbeda. Tetapi jika saya menambahkan ‘rendering 3d’ ke perintah, Saya mendapatkan Sesuatu untuk dilakukan dengan laut, bukan serangga,” jelasnya dalam serangkaian tweet.
Hilton mengatakan para peneliti “beruntung” ketika paus itu mengatakan “Wa ch zod rea” dan “kebetulan menghasilkan gambar makanan”.
“Bagi saya, semuanya mulai terlihat lebih seperti suara acak dan acak daripada bahasa rahasia Dalle,” tambah analis itu.
Mr Hilton setuju bahwa “meskipun tidak masuk akal”, prompt kacau “apoploe vesrreaitais” akan memberikan gambar burung sebagai hasilnya setiap kali “pasti aneh”, menambahkan bahwa “pasti ada sesuatu untuk itu”.
Namun dia mengatakan tidak ada cukup bukti untuk menunjukkan “bahasa rahasia” terlibat, atau bahwa teks dalam gambar Dalle “berarti apa pun”.
Menanggapi komentar Hilton bahwa para peneliti beruntung dengan contoh paus tersebut, Dallas mengatakan mereka dapat menemukan contoh serupa lainnya untuk mendukung klaim tersebut.
“Dua orang berbicara tentang sepak bola, dengan teks” memberikan kata “tiboer”. Ini sepertinya memberikan pergerakan sekitar 4/10 dari gambar,” cuitnya.
Penemuan bahasa Dalle-2 juga menimbulkan beberapa tantangan keamanan dan interpretasi, kata para peneliti.
Saat ini, sistem pemrosesan bahasa alami menyaring permintaan teks yang melanggar aturan kebijakan, tetapi Daras mengatakan permintaan tidak masuk akal seperti yang digunakan dalam penelitian ini dapat digunakan untuk “melewati filter ini”.
“Jika suatu sistem berperilaku dengan cara yang tidak dapat diprediksi, bahkan jika ini terjadi 1/10 kali, itu masih merupakan masalah keamanan dan interpretasi yang sangat besar yang perlu dipahami,” jelas Daras.
Namun, para peneliti sepakat bahwa “penelitian yang lebih mendasar diperlukan” untuk memahami fenomena ini dan menciptakan model generatif bahasa dan gambar yang kuat “yang memenuhi harapan manusia.”