https://bodybydarwin.com
Slider Image

Bahasa melatih kecerdasan buatan untuk mereplikasi bias manusia

2021

Bahasa adalah tentang pengulangan. Setiap kata yang Anda baca diciptakan oleh manusia, dan kemudian digunakan oleh manusia lain, menciptakan dan memperkuat konteks, makna, sifat dasar bahasa. Ketika manusia melatih mesin untuk memahami bahasa, mereka mengajar mesin untuk mereplikasi bias manusia.

"Temuan ilmiah utama yang dapat kami tunjukkan dan buktikan adalah bahwa bahasa mencerminkan bias, " kata Aylin Caliskan dari Pusat Kebijakan Teknologi Informasi Universitas Princeton. "Jika AI dilatih tentang bahasa manusia, maka itu akan berarti menyerap bias ini, karena itu mewakili fakta budaya dan statistik tentang dunia."

Karya Caliskan, bersama dengan rekan penulis Joanna Bryson dan Arvind Narayanan, diterbitkan pekan lalu di Science . Pada dasarnya, mereka menemukan bahwa jika seseorang melatih mesin untuk memahami bahasa manusia, maka itu akan mengambil bias yang melekat juga.

Pada manusia, salah satu cara terbaik untuk menguji bias adalah tes asosiasi implisit, yang meminta orang untuk mengaitkan kata seperti "serangga" dengan kata seperti "menyenangkan" atau "tidak menyenangkan" dan kemudian mengukur latensi, atau waktu dibutuhkan untuk membuat koneksi itu. Orang dengan cepat memberi label serangga sebagai hal yang tidak menyenangkan dan lebih lambat untuk melabeli serangga sebagai hal yang menyenangkan, jadi ini adalah metrik yang bagus untuk asosiasi.

Menguji keragu-raguan di komputer tidak benar-benar berhasil, jadi para peneliti menemukan cara berbeda untuk melihat kata-kata apa yang lebih disukai komputer untuk dikaitkan dengan orang lain. Seperti siswa yang menebak arti kata asing yang hanya didasarkan pada kata-kata yang muncul di dekatnya, para peneliti melatih AI untuk mengaitkan kata-kata yang tampak dekat satu sama lain secara online, dan untuk tidak mengaitkan kata-kata yang tidak.

Bayangkan setiap kata sebagai vektor dalam ruang tiga dimensi. Kata-kata yang biasanya digunakan dalam kalimat yang sama lebih dekat dengannya, dan kata-kata yang jarang digunakan dalam kalimat dengannya adalah vektor yang lebih jauh. Semakin dekat dua kata tersebut, semakin besar kemungkinan mesin mengaitkannya. Jika orang mengatakan "programmer" dekat dengan "dia" dan "komputer" tetapi katakan "perawat" dekat dengan "dia" dan "kostum yang menggambarkan bias implisit dalam bahasa.

Memberi makan komputer jenis data bahasa ini untuk mengajar mereka bukanlah konsep baru. Alat-alat seperti Vektor Global Stanford untuk Representasi Kata-yang ada sebelum makalah ini-plot vektor antara kata-kata terkait berdasarkan penggunaannya. Wordset GloVe termasuk 27 miliar kata yang ditarik dari 2 miliar Tweet, 6 miliar kata yang ditarik dari Wikipedia pada 2014, dan 840 miliar kata yang ditarik dari pukat acak melalui internet.

Anda dapat mengatakan berapa kali leash muncul di dekat cat? dan berapa kali leash terjadi di dekat dog? dan berapa kali leash muncul di dekat justice?, dan itu akan menjadi bagian dari karakterisasi karakter kata, kata Bryson. Dan kemudian vektor-vektor ini, Anda dapat membandingkannya dengan cosinus. Seberapa dekat kucing dengan anjing? Seberapa dekat kucing dengan keadilan?

Sama seperti tes asosiasi implisit menunjukkan konsep apa yang secara tidak sadar manusia pikirkan sebagai baik atau buruk, perhitungan jarak rata-rata antara kelompok kata yang berbeda menunjukkan kepada peneliti apa bias yang mulai ditunjukkan komputer dalam pemahamannya terhadap bahasa. Sungguh luar biasa bahwa mesin dilatih untuk memahami bahasa yang diambil pada bias manusia tentang bunga (mereka menyenangkan) dan serangga (mereka tidak menyenangkan), dan Bryson mengatakan itu akan menjadi studi yang signifikan jika itu semua itu terlihat. Tapi itu lebih dalam dari itu.

"Ada tes kedua, yang mengukur kuantitas antara temuan kami dan statistik yang dipublikasikan, " kata Caliskan. WentSaya pergi ke Biro Statistik Tenaga Kerja 2015, dan setiap tahun mereka mempublikasikan nama-nama pekerjaan bersama dengan persentase wanita dan persentase, misalnya, orang kulit hitam Amerika dalam pekerjaan itu. Dengan melihat susunan 50 nama pekerjaan dan menghitung keterkaitannya dengan laki-laki atau perempuan, saya mendapat 90 persen korelasi dengan data Biro Tenaga Kerja, yang sangat mengejutkan, karena saya tidak berharap dapat menemukan korelasi semacam itu. dari data berisik seperti itu. "

Jadi komputer mengambil pada rasisme dan seksisme dengan mengaitkan kata-kata yang berhubungan dengan pekerjaan dengan jenis kelamin atau kelompok etnis tertentu. Salah satu contoh yang ditekankan dalam makalah ini adalah "programmer, " yang bukan kata dalam gender dalam bahasa Inggris, namun melalui penggunaannya sekarang memiliki konotasi menjadi profesi laki-laki.

"Kami tidak berpikir, ketika Anda mengatakan programmer apakah Anda mengatakan laki-laki atau perempuan, " kata Bryson, "tapi ternyata itu ada dalam konteks di mana kata biasanya muncul."

Mesin yang dilatih dengan kumpulan data bahasa seperti yang digunakan (seperti GloVe) akan membahas asosiasi ini, karena itulah konteks saat ini, tetapi itu berarti peneliti di masa depan harus berhati-hati tentang bagaimana mereka menggunakan data itu, karena bias manusia yang sama datang dipanggang. Ketika Caliskan melatih alat itu di Wordet Wikipedia, yang diadakan dengan standar editorial bahasa netral, ia menemukan bahwa alat itu mengandung bias yang sama dengan yang ia temukan dalam rangkaian kata yang lebih besar yang ditarik dari internet.

"Untuk menyadari bias, untuk unbias, kita perlu mengukurnya, " kata Caliskan, "Bagaimana bias mendapatkan dalam bahasa, apakah orang mulai membuat asosiasi bias dari cara mereka terkena bahasa? Mengetahui hal itu juga akan membantu kita menemukan jawaban untuk masa depan yang mungkin kurang bias. ”

Satu jawaban mungkin mencari ke bahasa lain. Studi ini berfokus pada kata-kata berbahasa Inggris di internet, sehingga bias yang ditemukan dalam penggunaan kata adalah bias, pada umumnya, dari orang yang berbahasa Inggris dengan akses ke internet.

"Kami melihat berbagai jenis bahasa dan berdasarkan pada sintaksis dari bahasa yang kami coba pahami jika itu mempengaruhi stereotip gender atau seksisme, hanya karena sintaksis bahasa tersebut, " kata Caliskan. “Ada yang tanpa gender, ada yang sedikit lebih jender. Dalam bahasa Inggris ada kata ganti jenis kelamin, tetapi banyak hal menjadi lebih banyak jenis kelamin [dalam bahasa] seperti bahasa Jerman di mana kata benda dibuat berdasarkan jenis kelamin, dan itu bisa lebih jauh. Bahasa Slavik memiliki kata sifat gender atau bahkan kata kerja, dan kami bertanya-tanya, bagaimana hal ini memengaruhi bias gender dalam masyarakat? ”

Memahami bagaimana bias masuk ke dalam bahasa juga merupakan cara untuk memahami apa yang lain, makna implisit yang ditambahkan orang ke kata-kata di samping definisi eksplisit mereka.

"Dengan cara ini membantu saya berpikir tentang kesadaran, " kata Joanna Bryson, salah satu penulis dalam penelitian ini. “Apa manfaat kesadaran? Anda ingin memiliki ingatan akan dunia, Anda ingin tahu hal-hal seperti apa yang biasanya terjadi. Itu memori semantik Anda. "

Mutabilitas bahasa, cara konteks semantik terbentuk melalui penggunaan, berarti ini tidak harus menjadi satu-satunya cara kita memahami dunia ini.

"Anda ingin dapat menciptakan realitas baru, " lanjut Bryson. “Manusia telah memutuskan bahwa kita telah mengumpulkan barang-barang kita dengan cukup baik sekarang sehingga kita dapat memiliki perempuan yang bekerja dan mengembangkan karier dan itu adalah hal yang sangat masuk akal untuk dilakukan. Dan sekarang kita dapat menegosiasikan perjanjian baru, seperti, “kita tidak akan mengatakan 'programmer he', kita akan mengatakan 'programmer they', bahkan jika kita berbicara tentang singular, karena kita tidak ingin membuat orang merasa seperti mereka tidak bisa menjadi programmer. "

Dan kecuali orang-orang memperhitungkan bias yang ada saat memprogram mesin pada bahasa manusia, mereka tidak akan menciptakan mesin yang tidak bias, tetapi mesin yang mereplikasi bias manusia.

"Banyak orang berpikir mesin itu netral, " kata Caliskan. “Mesin tidak netral. Jika Anda memiliki algoritme berurutan yang membuat keputusan secara berurutan, seperti pembelajaran mesin, Anda tahu bahwa itu dilatih pada sekumpulan data manusia, dan sebagai hasilnya ia harus menyajikan dan mencerminkan data itu, karena data historis mencakup bias, model yang terlatih harus memasukkan bias tersebut juga, jika itu algoritma pelatihan yang baik. Jika cukup akurat, ia akan dapat memahami semua asosiasi itu. Sistem pembelajaran mesin mempelajari apa yang dilihatnya. ”

Seorang dokter hewan menjelaskan apa arti anjing dan kucing selama bertahun-tahun

Seorang dokter hewan menjelaskan apa arti anjing dan kucing selama bertahun-tahun

Kiat dan trik terbaik untuk Musik YouTube

Kiat dan trik terbaik untuk Musik YouTube

Cara memindahkan daftar main di antara layanan streaming musik

Cara memindahkan daftar main di antara layanan streaming musik