Bagaimana program seperti jaringan saraf GPT-3 OpenAI dapat menjawab pertanyaan pilihan ganda, atau menulis puisi dengan gaya tertentu, meskipun tidak pernah diprogram untuk tugas khusus ini?
Menurut penelitian baru dari DeepMind, unit kecerdasan buatan Google, ini mungkin karena bahasa manusia memiliki sifat statistik yang menyebabkan jaringan saraf mengharapkan kejutan.
Dari sudut pandang statistik, bahasa alami memiliki sifat “tidak seragam”, seperti kata-kata yang dapat mewakili berbagai macam hal, yang disebut “polisemi”, seperti kata “bank”, yang berarti tempat di mana Anda menaruh uang atau tumpukan tanah. Kata-kata yang terdengar dengan cara yang sama dapat mewakili hal-hal yang berbeda dan disebut homonim, seperti “di sini” dan “didengar”.
Kualitas bahasa ini adalah fokus dari tesis Diterbitkan di arXiv bulan ini“Properti Distribusi Data Mendorong Pembelajaran Sedikit-Shot yang Muncul di Transformers,” ilmuwan DeepMind Stephanie CY Chan, Adam Santoro, Andrew K. Lampinen, Jane X. Wang, Aaditya Singh, Pierre H. Richemond, Jay McClelland, dan Felix Hill.
kembali: Apa itu GPT-3?Semua yang perlu diketahui bisnis Anda tentang program bahasa AI terobosan OpenAI
Penulis mulai dengan menanyakan bagaimana program seperti GPT-3 dapat menyelesaikan tugas memberi mereka berbagai pertanyaan yang belum dilatih secara eksplisit, yang disebut “pembelajaran beberapa kali”.
Misalnya, GPT-3 dapat menjawab pertanyaan pilihan ganda tanpa diprogram secara eksplisit untuk menjawab bentuk pertanyaan ini, hanya dengan diminta oleh pengguna manusia untuk contoh pasangan pertanyaan dan jawaban pilihan ganda.
“Model bahasa berbasis Transformer Besar mampu melakukan sejumlah kecil pembelajaran (juga dikenal sebagai pembelajaran kontekstual) tanpa pelatihan eksplisit,” tulis mereka, mengacu pada jaringan saraf Transformer populer Google, yaitu GPT-3 dan Dasar dari Google. program bahasa BERT.
Saat mereka menjelaskan, “Kami berhipotesis bahwa sifat distribusi tertentu dari bahasa alami dapat mendorong fenomena yang muncul ini.”
Penulis berspekulasi bahwa program model bahasa besar ini berperilaku seperti jenis lain dari program pembelajaran mesin yang disebut meta-learning. Prosedur meta-learning yang dieksplorasi oleh DeepMind dalam beberapa tahun terakhir bekerja dengan memodelkan pola data di berbagai kumpulan data.Program tersebut dilatih untuk mensimulasikan distribusi data tunggal, tetapi distribusi kumpulan data, seperti yang dijelaskan dalam Penelitian sebelumnya oleh anggota tim Adam Santoro.
kembali: GPT-3 besar OpenAI mengisyaratkan batas model bahasa AI
Kuncinya di sini adalah berbeda Himpunan data. Mereka berspekulasi bahwa semua non-keseragaman bahasa, seperti ambiguitas dan “ekor panjang” bahasa, fakta bahwa pidato mengandung kata-kata yang relatif jarang digunakan – masing-masing fakta linguistik yang aneh ini menyerupai distribusi data yang terpisah.
Faktanya, mereka menulis, bahasa seperti sesuatu antara data pelatihan yang diawasi dengan pola reguler dan meta-learning dengan banyak data berbeda:
Seperti pelatihan yang diawasi, item (kata) berulang dan pemetaan label item (misalnya makna kata) diperbaiki sampai batas tertentu. Pada saat yang sama, distribusi ekor panjang memastikan bahwa ada banyak kata langka yang jarang muncul di jendela konteks, tetapi mungkin meledak (beberapa kemunculan) di jendela konteks. Kami juga dapat mempertimbangkan sinonim, homofon, dan polisemi sebagai versi yang lebih lemah dari pemetaan label item yang sepenuhnya tidak diperbaiki yang digunakan untuk pelatihan meta beberapa bidikan, di mana pemetaan berubah setiap episode.
Untuk menguji hipotesis ini, Chan dan rekan-rekannya mengambil pendekatan yang mengejutkan: Mereka tidak benar-benar berurusan dengan tugas bahasa. Sebagai gantinya, mereka melatih jaringan saraf Transformer untuk menyelesaikan tugas penglihatan yang disebut Omniglot, Diluncurkan pada tahun 2016 Akademisi di Universitas New York, Universitas Carnegie Mellon, dan MIT. Omniglot menantang sebuah program untuk menetapkan label klasifikasi yang benar ke 1.623 mesin terbang karakter tulisan tangan.
Dalam karya Chan et al., mereka mengubah tantangan Omniglot berlabel menjadi tugas sekali pakai dengan mengacak label mesin terbang secara acak, sehingga jaringan saraf belajar di setiap “episode”:
Tidak seperti dalam pelatihan, di mana label diperbaiki di semua urutan, label untuk dua kelas gambar ini secara acak ditugaskan kembali ke setiap urutan. […] Karena label secara acak ditugaskan kembali untuk setiap urutan, model harus menggunakan konteks dalam urutan saat ini untuk membuat prediksi label pada gambar kueri (masalah klasifikasi 2 arah). Pembelajaran sedikit-shot selalu dievaluasi pada kelas gambar yang dicadangkan yang belum pernah terlihat selama pelatihan kecuali dinyatakan lain.
Dengan cara ini, penulis memanipulasi data visual, mesin terbang, untuk menangkap kualitas bahasa yang terputus-putus. “Pada waktu pelatihan, kami menempatkan gambar dan label Omniglot ke dalam urutan dengan berbagai properti distribusi yang terinspirasi bahasa,” tulis mereka. Misalnya, mereka secara bertahap meningkatkan jumlah label kelas yang dapat ditetapkan ke mesin terbang tertentu untuk mendekati kualitas ambiguitas.
“Pada saat evaluasi, kami menilai apakah atribut ini menghasilkan sedikit kemampuan belajar.”
Mereka menemukan bahwa ketika mereka dikalikan dengan jumlah label untuk mesin terbang tertentu, jaringan saraf menjadi lebih baik dalam melakukan pembelajaran beberapa tembakan. “Kami melihat bahwa peningkatan ‘polisemi’ ini (jumlah label yang ditetapkan untuk setiap kata) juga meningkatkan pembelajaran sedikit-sedikit,” seperti yang dikatakan Chan dan rekannya.
“Dengan kata lain, membuat masalah generalisasi lebih sulit sebenarnya membuat pembelajaran beberapa kali lebih intens.”
Pada saat yang sama, Chan dan rekannya menemukan bahwa struktur spesifik dari jaringan saraf Transformer membantunya mencapai pembelajaran beberapa kali.Mereka menguji “jaringan saraf berulang biasa,” tulis mereka, dan menemukan bahwa jaringan semacam itu tidak mungkin Kemampuan untuk mencapai beberapa tembakan.
“Transformer secara signifikan lebih bias terhadap pembelajaran beberapa tembakan dibandingkan dengan model berulang.”
Penulis menyimpulkan bahwa kualitas data (seperti bahasa ekor panjang) dan sifat jaringan saraf (seperti struktur Transformer) adalah penting. Ini bukan salah satu atau yang lain, itu keduanya.
Penulis daftar beberapa jalan untuk eksplorasi masa depan. Salah satunya adalah hubungan dengan kognisi manusia, karena bayi menunjukkan apa yang tampaknya merupakan pembelajaran yang tidak biasa.
Misalnya, sifat statistik dari pembelajaran bahasa yang cepat pada bayi. Bisakah fitur distribusi ini membantu bayi memperoleh kemampuan untuk belajar dengan cepat, atau berfungsi sebagai prapelatihan yang berguna untuk pembelajaran selanjutnya? Bisakah distribusi non-seragam serupa di domain empiris lain (seperti visi) juga berperan dalam perkembangan ini?
Jelas bahwa pekerjaan saat ini sama sekali bukan tes bahasa. Alih-alih, ini bertujuan untuk mensimulasikan sifat statistik yang diduga dari bahasa dengan menciptakan ketidakhomogenan dalam data visual (gambar Omniglot).
Para penulis tidak menjelaskan apakah terjemahan dari satu bentuk ke bentuk lain memiliki pengaruh terhadap makna karya mereka. Sebaliknya, mereka menulis, mereka berharap untuk memperluas pekerjaan mereka ke lebih banyak aspek bahasa.
“Hasil di atas menyarankan arah yang menarik untuk penelitian masa depan,” tulis mereka, termasuk, “Bagaimana sifat distribusi data ini berinteraksi dengan pembelajaran penguatan dan kehilangan yang diawasi? Dalam eksperimen yang mereplikasi bahasa dan aspek lain dari pemodelan bahasa, Bagaimana hasilnya bisa berbeda? , seperti menggunakan input simbolis, melatih prediksi token atau topeng token berikutnya, dan menentukan arti kata berdasarkan konteks?”