Ngademin Pegiat Teknologi

Google menjadi lebih multibahasa, tetapi apakah itu akan bernuansa?

3 min read

Google menjadi lebih multibahasa, tetapi apakah itu akan bernuansa?

Google menjadi lebih multibahasa tetapi apakah itu akan bernuansa

Sekitar 10 juta orang berbicara bahasa Quechua, tetapi mencoba menerjemahkan email dan pesan teks secara otomatis ke dalam keluarga bahasa asli yang paling banyak digunakan di Amerika telah lama hampir tidak mungkin.

Itu berubah pada hari Rabu, ketika Google menambahkan Quechua dan beberapa bahasa lain ke layanan terjemahan digitalnya.

Raksasa internet itu mengatakan teknologi kecerdasan buatan baru memungkinkannya untuk memperluas perpustakaan bahasa dunia Google Terjemahan. Minggu ini menambahkan 24 bahasa, termasuk Quechua dan bahasa asli Amerika Selatan lainnya seperti Guarani dan Aymara. Itu juga menambahkan beberapa bahasa Afrika dan Asia Selatan yang digunakan secara luas yang telah lama hilang dari produk teknologi populer.

Ilmuwan riset Google Isaac Caswell mengatakan kepada wartawan: “Kami melihat bahasa yang kelebihan penduduk dan kurang terlayani.”

Berita dari pameran teknologi I/O tahunan perusahaan California kemungkinan akan dirayakan di banyak penjuru dunia. Tapi itu juga bisa mengundang kritik dari mereka yang sebelumnya frustrasi dengan produk teknologi yang gagal memahami bahasa atau nuansa budaya mereka.

Quechua adalah lingua franca Kekaisaran Inca, yang membentang dari apa yang sekarang Kolombia selatan ke Chili tengah. Statusnya mulai menurun setelah Spanyol menaklukkan Peru lebih dari 400 tahun yang lalu.

Menambahkannya ke bahasa yang disetujui Google adalah kemenangan besar bagi aktivis bahasa Quechua seperti Luis Illaccanqui, seorang Peru yang menciptakan situs Qichwa 2.0, yang mencakup panduan untuk mempelajari bahasa. Kamus dan sumber daya.

“Ini akan membantu menempatkan Quechua dan Spanyol pada level yang sama,” kata Illaccanqui, yang tidak terlibat dalam proyek Google.

Illaccanqui, yang nama belakangnya berarti ‘Anda adalah kilat’ dalam bahasa Quechua, mengatakan terjemahan itu juga akan membantu menjaga bahasa itu tetap hidup bagi generasi muda dan remaja baru, “yang berbicara bahasa Quechua dan Spanyol, dan terpesona oleh jejaring sosial.”

Caswell menyebut berita tersebut sebagai “langkah maju yang besar untuk teknologi,” karena hingga saat ini, para peneliti tidak dapat menemukan cukup teks online (seperti buku digital, surat kabar, atau posting media sosial) untuk peneliti mereka. Tidak mungkin untuk menambahkan bahasa. Sistem AI tersedia untuk dipelajari.

Raksasa teknologi A.S. tidak memiliki rekam jejak yang bagus untuk membuat teknologi bahasa mereka bekerja dengan baik di luar pasar terkaya, dan masalahnya juga mempersulit mereka untuk menemukan kesalahan informasi yang berbahaya di platform mereka. Hingga minggu ini, Google Terjemahan menawarkan bahasa Eropa seperti Frisia, Malta, Islandia, dan Korsika — masing-masing dengan kurang dari 1 juta penutur — tetapi tidak seperti Oromo dan Korsika. Bahasa Afrika Timur seperti Tigrinya dituturkan oleh jutaan orang.

Bahasa baru akan diluncurkan minggu ini. Asisten suara Google belum memahaminya, yang untuk sementara membatasi terjemahan teks-ke-teks. Google mengatakan sedang bekerja untuk menambahkan pengenalan suara dan fitur lainnya, seperti menerjemahkan tanda dengan mengarahkan kamera ke sana.

Ini penting untuk bahasa yang sebagian besar digunakan seperti Quechua, terutama di sektor kesehatan, karena banyak dokter dan perawat Peru yang hanya berbicara bahasa Spanyol bekerja di daerah pedesaan dan “tidak dapat memahami pasien yang didominasi Quechua”, kata Illaccanqui.

“Perbatasan atau tantangan berikutnya adalah mempelajari pidato,” kata Arturo Oncevay, peneliti terjemahan mesin Peru di University of Edinburgh, yang ikut mendirikan kelompok penelitian untuk meningkatkan teknologi bahasa asli di seluruh Amerika. “Bahasa asli Amerika digunakan secara tradisional.”

Dalam pengumumannya, Google memperingatkan bahwa kualitas terjemahan dalam bahasa yang baru ditambahkan “masih tertinggal jauh di belakang” bahasa lain yang didukungnya, seperti Inggris, Spanyol dan Jerman, mencatat bahwa model ini “membuat kesalahan dan menunjukkan mereka sendiri. bias.” Tetapi Caswell mengatakan perusahaan hanya akan menambahkan bahasa ketika sistem AI-nya mencapai tingkat kemahiran tertentu.

“Jika ada beberapa kasus yang sangat salah, maka kami tidak akan memasukkannya,” katanya. Bahkan jika 90 persen terjemahannya sempurna, 10 persennya omong kosong, yang agak terlalu berlebihan bagi kami. ”

Google mengatakan produknya sekarang mendukung 133 bahasa. 24 bahasa terbaru adalah penambahan batch tunggal terbesar sejak Google menggabungkan 16 bahasa baru pada tahun 2010. Apa yang memungkinkan penskalaan ini adalah apa yang disebut Google sebagai model terjemahan mesin “zero-shot” atau “zero-resource” — contoh model yang belajar menerjemahkan ke bahasa lain tanpa pernah melihatnya.

Meta, perusahaan induk dari Facebook dan Instagram, meluncurkan konsep serupa tahun lalu yang disebut Universal Voice Translator.

“Pada tingkat tinggi, Anda dapat membayangkan cara kerjanya adalah Anda memiliki model saraf raksasa yang telah dilatih dalam 100 bahasa berbeda,” kata Caswell tentang model Google.

Kelompok baru ini berkisar dari bahasa yang lebih kecil seperti Mizo, yang dituturkan oleh sekitar 800.000 orang di timur laut India, hingga bahasa yang lebih banyak digunakan seperti Lingala, yang dituturkan oleh sekitar 45 juta orang di Afrika tengah, katanya.

Lebih dari 15 tahun yang lalu, pada tahun 2006, Microsoft memperoleh daya tarik positif di Amerika Selatan dengan fitur perangkat lunak yang menerjemahkan menu dan perintah Microsoft yang sudah dikenal ke dalam Quechua. Tapi itu sebelum gelombang kemajuan AI saat ini dalam terjemahan waktu nyata.

Ahli bahasa Universitas Harvard yang berbahasa Quechua Américo Mendoza-Mori mengatakan bahwa penutur bahasa Quechua masih kurang di banyak layanan publik di tempat-tempat seperti Peru, dan mendapatkan perhatian Google telah membawa beberapa visibilitas yang dibutuhkan ke bahasa tersebut . Kelangsungan hidup banyak bahasa ini “akan bergantung pada penggunaannya di lingkungan digital,” katanya.

Bahasa baru yang ditambahkan adalah: Assamese, Aymara, Bambara, Bhojpuri, Dhivehi, Dogri, Ewe, Guarani, Ilocano, Konkani, Creole, Lingala, Luganda, Maithili, Metrolon (Manipuri), Mizo, Oromo, Quechua, Bahasa Sansekerta, Sepedi , Sorani Kurdi, Tigrinya, Tsonga dan Twi.

——

O’Brien melaporkan dari Providence, Rhode Island.

Ngademin Pegiat Teknologi

Google menyediakan Earth Engine untuk semua bisnis dan pemerintah

Selama dekade terakhir, para peneliti di akademisi dan organisasi nirlaba telah memperoleh akses ke informasi yang semakin kompleks tentang permukaan bumi melalui Google Earth...
Ngademin
1 min read

Google menyediakan Earth Engine untuk semua bisnis dan pemerintah

Selama dekade terakhir, para peneliti di akademisi dan organisasi nirlaba telah memperoleh akses ke informasi yang semakin kompleks tentang permukaan bumi melalui Google Earth...
Ngademin
1 min read