Ngademin Pegiat Teknologi

“Gato” DeepMind biasa-biasa saja, mengapa mereka membangunnya?

4 min read

"Gato" DeepMind biasa-biasa saja, mengapa mereka membangunnya?
deepmind-gato-slash-image-closer-in.png

Jaringan saraf “Gato” DeepMind unggul dalam banyak tugas, termasuk mengendalikan lengan robot yang menumpuk balok, memainkan game Atari 2600, dan membuat teks gambar.

Pikiran Dalam

Dunia sudah terbiasa melihat berita utama tentang terobosan terbaru berupa pembelajaran mendalam dalam kecerdasan buatan. Namun, pencapaian terbaru divisi DeepMind Google dapat disimpulkan sebagai “program kecerdasan buatan yang melakukan banyak hal.”

Gato, sebagaimana program DeepMind menyebutnya, Terungkap minggu ini Sebagai apa yang disebut program multimodal, yang dapat memainkan video game, mengobrol, menulis esai, gambar teks, dan mengontrol lengan robot untuk menumpuk balok. Ini adalah jaringan saraf yang dapat memproses berbagai data untuk melakukan berbagai tugas.

Penulis utama Scott Reed menulis: “Melalui serangkaian bobot, Gato dapat melakukan dialog, gambar subtitle, blok tumpukan dengan lengan robot nyata, mengungguli manusia di game Atari, menavigasi lingkungan 3D simulasi, mengikuti instruksi, dan banyak lagi.” makalah mereka “Agen Generalis” Diterbitkan di server pracetak Arxiv.

Salah satu pendiri DeepMind, Demis Hassabis, menyemangati tim, seru di tweet“Agen kita yang paling umum saat ini!! Kerja bagus dari tim!”

kembali: Eksperimen baru: Apakah AI benar-benar memahami kucing atau anjing?

Satu-satunya masalah adalah bahwa Gato sebenarnya tidak terlalu bagus dalam beberapa tugas.

Untuk satu hal, program ini melakukan pekerjaan yang lebih baik daripada program pembelajaran mesin khusus dalam mengendalikan lengan robot Sawyer yang menumpuk balok. Di sisi lain, ini menghasilkan teks untuk gambar yang buruk dalam banyak kasus. Kemampuannya untuk terlibat dalam percakapan obrolan standar dengan lawan bicara manusia juga biasa-biasa saja, terkadang mengarah pada kata-kata yang kontradiktif dan tidak masuk akal.

Pemutaran video game Atari 2600 lebih rendah daripada sebagian besar program ML khusus yang ditujukan untuk bersaing dengan tolok ukur Lingkungan Belajar Arkade.

Mengapa Anda ingin menulis program yang melakukan beberapa hal dengan baik dan tidak yang lain begitu baik? Menurut penulis, preseden dan harapan.

Ada preseden untuk membuat program yang lebih umum menjadi yang paling mutakhir dalam kecerdasan buatan, dan peningkatan daya komputasi di masa depan diharapkan dapat menutupi kekurangannya.

Umum cenderung menang di AI. Seperti yang penulis tunjukkan, mengutip sarjana AI Richard Sutton, “Secara historis, model tujuan umum yang lebih baik dalam mengeksploitasi komputasi juga pada akhirnya cenderung mengungguli pendekatan khusus domain yang lebih khusus.”

seperti yang ditulis Sutton di posting blognya sendiri“Pelajaran terbesar yang dapat dibaca dari 70 tahun penelitian AI adalah bahwa pendekatan umum yang memanfaatkan komputasi pada akhirnya adalah yang paling efisien, dan dengan margin yang besar.”

Dalam makalah resmi, Reed dan tim menulis: “Di sini kami menguji hipotesis bahwa adalah mungkin untuk melatih agen yang biasanya mampu melakukan sejumlah besar tugas; dan bahwa agen umum ini dapat melakukannya dengan sedikit data tambahan. misi yang lebih besar lagi.”

kembali: Guru AI Meta, LeCun, mengeksplorasi batas energi pembelajaran mendalam

Dalam hal ini, modelnya sangat umum. Ini adalah versi Transformer, model berbasis perhatian yang dominan yang telah menjadi dasar untuk berbagai program termasuk GPT-3. Transformer memodelkan probabilitas suatu elemen mengingat elemen-elemen di sekitarnya (seperti kata-kata dalam sebuah kalimat).

Dalam kasus Gato, para ilmuwan DeepMind mampu menggunakan pencarian probabilitas bersyarat yang sama di beberapa tipe data.

Seperti yang dijelaskan oleh Reed dan rekan-rekannya untuk tugas melatih Gato,

Selama fase pelatihan Gato, data dari tugas dan modalitas yang berbeda diserialkan ke dalam urutan token yang datar, dikumpulkan dan diproses oleh jaringan saraf transformator yang mirip dengan model bahasa besar. Kerugiannya ditutupi sehingga Gato hanya memprediksi tindakan dan objek teks.

Dengan kata lain, Gato tidak memperlakukan token secara berbeda, apakah itu kata-kata dalam obrolan atau vektor gerakan dalam latihan blok. Semua sama.

deepmind-bagaimana-gato-dilatih.png

Adegan pelatihan Cato.

Reed dkk. 2022

Tersembunyi di Reed dan asumsi tim adalah akibat wajar bahwa semakin banyak daya komputasi pada akhirnya akan menang. Saat ini, Gato dibatasi oleh waktu respon dari lengan robot Sawyer, yang melakukan penumpukan blok bangunan. Dengan 1,18 miliar parameter jaringan, Gato jauh lebih kecil daripada model AI yang sangat besar seperti GPT-3. Saat model pembelajaran mendalam menjadi lebih besar, melakukan inferensi memperkenalkan penundaan yang dapat gagal di dunia robotika dunia nyata yang tidak deterministik.

Namun, Reed dan rekan berharap bahwa batas ini akan dilampaui karena perangkat keras AI menjadi lebih cepat.

“Kami memfokuskan pelatihan pada titik operasi pada skala model, memungkinkan kontrol real-time robot dunia nyata, saat ini ~1.2B parameter dalam kasus Gato,” tulis mereka. “Seiring dengan peningkatan arsitektur perangkat keras dan model, titik operasi ini secara alami meningkatkan ukuran model yang layak, mendorong model umum menuju kurva hukum skala yang lebih tinggi.”

Jadi Gato benar-benar model bagaimana skala komputasi akan terus menjadi kendaraan utama untuk evolusi pembelajaran mesin dengan membuat model umum lebih besar dan lebih besar. Dengan kata lain, lebih besar lebih baik.

deepmind-menjadi-lebih-baik-dengan-skala.png

Gato menjadi lebih baik karena ukuran jaringan saraf dalam parameter meningkat.

Reed dkk. 2022

Penulis memiliki beberapa bukti untuk ini. Gato tampaknya menjadi lebih baik karena semakin besar. Mereka membandingkan skor rata-rata pada semua tugas benchmark untuk tiga ukuran model berdasarkan parameter (79 juta, 364 juta, dan 1,18 miliar untuk model utama). “Kita dapat melihat bahwa untuk jumlah token yang sama, kinerja meningkat secara signifikan dengan meningkatnya skala,” tulis para penulis.

Pertanyaan masa depan yang menarik adalah apakah program generalis lebih berbahaya daripada jenis program AI lainnya. Penulis menghabiskan banyak waktu di makalah membahas fakta bahwa ada potensi bahaya yang tidak dipahami dengan baik.

Gagasan program yang menangani banyak tugas menunjukkan adaptasi manusia ke orang awam, tetapi itu bisa menjadi kesalahpahaman yang berbahaya. “Misalnya, implementasi fisik dapat mengarahkan pengguna untuk mempersonifikasikan agen, yang mengarah ke kepercayaan palsu jika terjadi kegagalan sistem, atau dieksploitasi oleh aktor jahat,” tulis Reed dan tim.

“Selanjutnya, sementara transfer pengetahuan lintas domain sering menjadi tujuan penelitian ML, jika perilaku tertentu, seperti pertarungan game arcade, dipindahkan ke lingkungan yang salah, itu dapat memiliki konsekuensi yang tidak diinginkan.”

Dengan demikian, mereka menulis, “pertimbangan etika dan keamanan transfer pengetahuan mungkin memerlukan penelitian baru yang substansial sebagai sistem tujuan umum berkembang.”

(Sebagai catatan tambahan yang menarik, makalah Gato menggunakan skema untuk menggambarkan risiko yang dirancang oleh mantan peneliti AI Google Margaret Michell dan rekan yang disebut Model Cards. Model Cards secara singkat meringkas apa itu program AI, apa fungsinya Apa dan faktor apa yang memengaruhi bagaimana itu berhasil. Michelle menulis tahun lalu bahwa dia terpaksa meninggalkan Google karena mendukung mantan rekannya Timnit Gebru, yang memiliki masalah etika tentang Konflik AI dengan kepemimpinan AI Google.)

Kecenderungan Gato untuk menggeneralisasi sama sekali tidak unik. Itu bagian dari tren menuju generalisasi, dan model yang lebih besar yang menggunakan banyak tenaga kuda. Dunia pertama kali merasakan kemiringan Google ke arah ini musim panas lalu, dengan jaringan saraf “perceptron” Google yang menggabungkan tugas Transformer teks dengan gambar, suara, dan koordinat spasial LiDAR.

kembali: Supermodel Google: DeepMind Perceiver adalah langkah menuju mesin AI yang dapat menangani apa saja

Di antara rekan-rekannya adalah PaLM, model bahasa Pathways, Google Ilmuwan diluncurkan tahun inimodel parameter 540 miliar yang memanfaatkan teknologi baru untuk mengoordinasikan ribuan chip, disebut jalan, juga ditemukan di Google. Jaringan saraf, yang disebut “data2vec,” dirilis oleh Meta pada bulan Januari, menggunakan Transformers untuk data gambar, bentuk gelombang audio ucapan, dan representasi bahasa teks.

Kemampuan baru Gato tampaknya dimaksudkan untuk mengambil AI untuk tugas-tugas non-robotik dan mendorongnya ke dalam robotika.

Pencipta Gato mencatat pencapaian Pathways dan pendekatan generalis lainnya, melihat pencapaian tertinggi AI yang dapat menjalankan semua jenis tugas di dunia nyata.

“Pekerjaan di masa depan harus mempertimbangkan bagaimana menyatukan fitur tekstual ini menjadi agen yang sepenuhnya umum yang juga dapat bertindak secara real-time di dunia nyata, di lingkungan dan perwujudan yang berbeda.”

Kemudian, Anda dapat menganggap Gato sebagai langkah besar menuju pemecahan masalah terberat AI dalam robotika.

Ngademin Pegiat Teknologi

Google menyediakan Earth Engine untuk semua bisnis dan pemerintah

Selama dekade terakhir, para peneliti di akademisi dan organisasi nirlaba telah memperoleh akses ke informasi yang semakin kompleks tentang permukaan bumi melalui Google Earth...
Ngademin
1 min read

Google menyediakan Earth Engine untuk semua bisnis dan pemerintah

Selama dekade terakhir, para peneliti di akademisi dan organisasi nirlaba telah memperoleh akses ke informasi yang semakin kompleks tentang permukaan bumi melalui Google Earth...
Ngademin
1 min read