Model AI mungkin menjadi seperti manusia.
Yang baru belajar dari University of Texas di Austin, Texas A&M, dan Purdue University menunjukkan bahwa model bahasa besar yang mengonsumsi konten media sosial populer namun berkualitas rendah mengalami semacam “kebusukan otak” yang mungkin familier bagi siapa saja yang telah menghabiskan waktu terlalu lama melakukan doomscrolling di X atau TikTok.
“Kita hidup di zaman di mana informasi tumbuh lebih cepat daripada rentang perhatian—dan sebagian besar informasi dirancang untuk menangkap informasi yang tepat, bukan menyampaikan kebenaran atau kedalaman,” kata Junyuan Hong, asisten profesor di National University of Singapore yang mengerjakan penelitian ini sebagai mahasiswa pascasarjana di UT Austin. “Kami bertanya-tanya: Apa yang terjadi jika AI dilatih pada hal yang sama?”
Hong dan rekan-rekannya memasukkan berbagai jenis teks ke dua model bahasa open source besar dalam pra-pelatihan. Mereka meneliti apa yang terjadi ketika para model diberi kombinasi postingan media sosial yang sangat “menarik”, atau dibagikan secara luas, dan postingan yang berisi teks sensasional atau sensasional seperti “wow”, “lihat”, atau “hanya hari ini”.
Para peneliti kemudian menggunakan beberapa tolok ukur berbeda untuk mengukur dampak diet media sosial “sampah” ini pada dua model sumber terbuka: Llama dari Meta dan Qwen dari Alibaba.
Model yang diberi teks sampah mengalami semacam kerusakan otak AI—dengan penurunan kognitif termasuk berkurangnya kemampuan penalaran dan penurunan memori. Model-model tersebut juga menjadi kurang selaras secara etis dan menjadi lebih psikopat menurut dua ukuran.
Hasilnya mencerminkan penelitian pada subjek manusia, yang mana menunjukkan bahwa konten online berkualitas rendah memiliki a efek merugikan pada kemampuan kognitif seseorang. Meluasnya fenomena ini menyebabkan “busuk otak” dinamai Kamus Oxford kata terbaik tahun ini pada tahun 2024.
Hasilnya penting bagi industri AI, kata Hong, karena pembuat model mungkin berasumsi bahwa postingan media sosial adalah sumber data pelatihan yang baik untuk model mereka. “Pelatihan tentang konten viral atau menarik perhatian mungkin terlihat seperti memperluas data,” katanya. “Tetapi hal ini secara diam-diam dapat merusak penalaran, etika, dan perhatian jangka panjang.”
Fakta bahwa LLM menderita kerusakan otak tampaknya sangat mengkhawatirkan ketika AI sendiri semakin banyak menghasilkan konten media sosial, yang sebagian besar tampaknya dioptimalkan untuk keterlibatan. Para peneliti juga menemukan bahwa model yang mengalami gangguan karena konten berkualitas rendah tidak dapat dengan mudah ditingkatkan melalui pelatihan ulang.
Temuan ini juga menunjukkan bahwa sistem AI yang dibangun di platform sosial, seperti Grok, mungkin mengalami masalah kontrol kualitas jika postingan buatan pengguna digunakan dalam pelatihan tanpa memperhatikan integritas postingan.
“Seiring dengan semakin banyaknya data kotor yang dihasilkan oleh AI yang tersebar di media sosial, hal ini juga mencemari data yang dapat dipelajari oleh model di masa depan,” kata Hong. “Temuan kami menunjukkan bahwa ketika ‘kebusukan otak’ semacam ini terjadi, pelatihan yang bersih di kemudian hari tidak dapat sepenuhnya menghilangkannya.”
Ini adalah edisi Will Knight Buletin Lab AI. Baca buletin sebelumnya Di Sini.