Home / TECHNO

Kamis, 24 November 2022 - 17:50 WIB

Kami bisa kehabisan data untuk melatih program bahasa AI


Masalahnya adalah, jenis data yang biasanya digunakan untuk model pelatihan bahasa dapat digunakan dalam waktu dekat—paling awal tahun 2026, menurut sebuah makalah oleh para peneliti dari Epoch, sebuah organisasi penelitian dan peramalan AI, yang belum setara. ditinjau. Masalahnya berasal dari fakta bahwa, ketika para peneliti membangun model yang lebih kuat dengan kemampuan yang lebih besar, mereka harus menemukan lebih banyak teks untuk dilatih. Peneliti model bahasa besar semakin khawatir bahwa mereka akan kehabisan data semacam ini, kata Teven Le Scao, seorang peneliti di perusahaan AI Hugging Face, yang tidak terlibat dalam pekerjaan Epoch.

Masalahnya sebagian berasal dari fakta bahwa peneliti bahasa AI memfilter data yang mereka gunakan untuk melatih model menjadi dua kategori: kualitas tinggi dan kualitas rendah. Garis antara dua kategori bisa kabur, kata Pablo Villalobos, seorang staf peneliti di Epoch dan penulis utama makalah, tetapi teks dari yang pertama dipandang lebih baik ditulis dan sering diproduksi oleh penulis profesional.

Baca Juga :   Selami media sosial untuk meningkatkan penelitian kata kunci Anda

Data dari kategori berkualitas rendah terdiri dari teks seperti postingan media sosial atau komentar di situs web seperti 4chan, dan jauh melebihi jumlah data yang dianggap berkualitas tinggi. Peneliti biasanya hanya melatih model menggunakan data yang termasuk dalam kategori berkualitas tinggi karena itulah jenis bahasa yang mereka inginkan untuk direproduksi oleh model. Pendekatan ini telah menghasilkan beberapa hasil yang mengesankan untuk model bahasa besar seperti GPT-3.

Salah satu cara untuk mengatasi kendala data ini adalah menilai kembali apa yang didefinisikan sebagai kualitas “rendah” dan “tinggi”, menurut Swabha Swayamdipta, seorang profesor pembelajaran mesin Universitas California Selatan yang berspesialisasi dalam kualitas kumpulan data. Jika kekurangan data mendorong peneliti AI untuk memasukkan kumpulan data yang lebih beragam ke dalam proses pelatihan, itu akan menjadi “positif bersih” untuk model bahasa, kata Swayamdipta.

Baca Juga :   Manfaatkan ekonomi data

Peneliti juga dapat menemukan cara untuk memperpanjang umur data yang digunakan untuk model pelatihan bahasa. Saat ini, model bahasa besar dilatih pada data yang sama sekali saja, karena kendala kinerja dan biaya. Tetapi dimungkinkan untuk melatih model beberapa kali menggunakan data yang sama, kata Swayamdipta.

Beberapa peneliti percaya besar mungkin tidak sama dengan lebih baik dalam hal model bahasa. Percy Liang, seorang profesor ilmu komputer di Stanford University, mengatakan ada bukti bahwa membuat model lebih efisien dapat meningkatkan kemampuannya, bukan hanya memperbesar ukurannya.
“Kami telah melihat bagaimana model yang lebih kecil yang dilatih pada data berkualitas lebih tinggi dapat mengungguli model yang lebih besar yang dilatih pada data berkualitas rendah,” jelasnya.

Baca Juga :   Unduhan: menemukan protein, dan krisis iklim Pakistan



Source link

Share :

Baca Juga

SCIENCE

WHO mengecam negara-negara kaya yang terburu-buru mempromosikan vaksin Covid | Virus corona
Apa yang diharapkan ketika Anda mengharapkan kromosom X atau Y tambahan?

TECHNO

Apa yang diharapkan ketika Anda mengharapkan kromosom X atau Y tambahan?
Pusat Keberlanjutan Catawba sedang mengembangkan program untuk membantu petani hutan menanam dan memasarkan tanaman obat | bisnis Lokal

HERBAL

Pusat Keberlanjutan Catawba sedang mengembangkan program untuk membantu petani hutan menanam dan memasarkan tanaman obat | bisnis Lokal

KESEHATAN

Orang yang “tidak bisa memakai jeans yang mereka kenakan pada usia 21” berisiko terkena diabetes | penderita diabetes

SCIENCE

Apakah salah mengolok-olok peti mati yang berusaha untuk memusnahkan harimau Tasmania??! | Anjing Pertama di Bulan
Berikat: Platform Turki merombak perburuan pekerjaan, perekrutan pekerja

TECHNO

Berikat: Platform Turki merombak perburuan pekerjaan, perekrutan pekerja
Orang Eropa merasa dingin tentang vaksin Covid-19 saat gelombang ketiga mendekat

KESEHATAN

Orang Eropa merasa dingin tentang vaksin Covid-19 saat gelombang ketiga mendekat
Setidaknya $1 miliar dana klien hilang di perusahaan crypto FTX yang gagal

TECHNO

Setidaknya $1 miliar dana klien hilang di perusahaan crypto FTX yang gagal