Bahkan yang terbaik Agen kecerdasan buatan tidak punya harapan lagi dalam pekerjaan lepas online, menurut sebuah eksperimen yang menantang gagasan AI menggantikan pekerja kantoran secara massal.
Remote Labor Index, sebuah tolok ukur baru yang dikembangkan oleh para peneliti di perusahaan anotasi data Scale AI dan Center for AI Safety (CAIS), sebuah organisasi nirlaba, mengukur kemampuan model AI terdepan dalam mengotomatisasi pekerjaan yang bernilai ekonomi.
Para peneliti memberi beberapa agen AI terkemuka serangkaian pekerjaan lepas yang disimulasikan dan menemukan bahwa bahkan yang terbaik pun dapat melakukan kurang dari 3 persen pekerjaan, menghasilkan $1.810 dari kemungkinan $143.991. Para peneliti melihat beberapa alat dan menemukan yang paling mampu adalah Manus dari startup Tiongkok dengan nama yang sama, diikuti oleh Grok dari xAI, Claude dari Anthropic, ChatGPT dari OpenAI, dan Gemini dari Google.
“Saya berharap ini memberikan gambaran yang lebih akurat mengenai apa yang terjadi dengan kemampuan AI,” kata Dan Hendrycks, direktur CAIS. Ia menambahkan bahwa meskipun beberapa agen telah mengalami kemajuan yang signifikan dalam setahun terakhir, hal ini tidak berarti bahwa hal ini akan terus berlanjut pada tingkat yang sama.
Kemajuan AI yang spektakuler telah memunculkan spekulasi bahwa AI akan segera melampaui kecerdasan manusia dan menggantikan sejumlah besar pekerja. Pada bulan Maret, Dario Amodei, CEO Anthropic, menyatakan bahwa 90 persen coding berhasil akan otomatis dalam hitungan bulan.
Gelombang AI sebelumnya telah mengilhami prediksi yang salah mengenai perpindahan pekerjaan, misalnya mengenai penggantian ahli radiologi dalam waktu dekat dengan algoritma AI.
Para peneliti menghasilkan berbagai tugas lepas melalui pekerja Upwork yang terverifikasi. Tugasnya mencakup berbagai pekerjaan termasuk desain grafis, pengeditan video, pengembangan game, dan tugas administratif seperti pengumpulan data. Mereka menggabungkan deskripsi setiap pekerjaan dengan direktori file yang diperlukan untuk melakukan pekerjaan dan contoh proyek selesai yang dihasilkan oleh manusia.
Hendrycks mengatakan bahwa meskipun model AI menjadi lebih baik dalam pengkodean, matematika, dan penalaran logis dalam beberapa tahun terakhir, model tersebut masih kesulitan menggunakan alat yang berbeda dan melakukan tugas kompleks yang melibatkan banyak langkah. “Mereka tidak memiliki penyimpanan memori jangka panjang dan tidak dapat terus belajar dari pengalaman. Mereka tidak dapat memperoleh keterampilan dalam pekerjaan seperti manusia,” katanya.
Analisis tersebut menawarkan tandingan terhadap tolok ukur pekerjaan ekonomi yang ditawarkan pada bulan September oleh OpenAI yang disebut PDBvalyang dimaksudkan untuk mengukur pekerjaan yang bernilai ekonomi. Menurut GDPval, model AI terdepan seperti GPT-5 mendekati kemampuan manusia dalam 220 tugas di berbagai pekerjaan kantor. OpenAI tidak memberikan komentar.