Namun, model-model tersebut berkembang jauh lebih cepat dibandingkan upaya untuk memahaminya. Dan tim Anthropic mengakui bahwa seiring dengan berkembangnya agen AI, teori kriminalitas di laboratorium semakin mendekati kenyataan. Jika kita tidak memecahkan kotak hitam itu, kita mungkin akan retak.
“Sebagian besar milikku hidup telah terfokus pada upaya melakukan hal-hal yang saya yakini penting. Ketika saya berusia 18 tahun, saya keluar dari universitas untuk mendukung seorang teman yang dituduh melakukan terorisme, karena saya percaya bahwa yang paling penting adalah mendukung orang lain ketika orang lain tidak melakukannya. Ketika dia dinyatakan tidak bersalah, saya menyadari bahwa pembelajaran mendalam akan mempengaruhi masyarakat, dan mendedikasikan diri saya untuk mencari tahu bagaimana manusia dapat memahami jaringan saraf. Saya telah menghabiskan satu dekade terakhir mengerjakan hal ini karena menurut saya ini bisa menjadi salah satu kunci untuk membuat AI aman.”
Maka dimulailah “date me doc” Chris Olah, yang dia posting di Twitter pada tahun 2022. Dia tidak lagi lajang, tetapi dokter tetap berada di situs Github miliknya “karena itu adalah dokumen penting bagi saya,” tulisnya.
Uraian Olah mengabaikan beberapa hal, termasuk bahwa meskipun tidak memperoleh gelar sarjana, dia adalah salah satu pendiri Anthropic. Kelalaian yang kurang signifikan adalah bahwa ia menerima Thiel Fellowship, yang memberikan $100,000 kepada siswa putus sekolah yang berbakat. “Ini memberi saya banyak fleksibilitas untuk fokus pada apa pun yang saya anggap penting,” katanya kepada saya dalam sebuah wawancara pada tahun 2024. Didorong oleh membaca artikel di WIRED, antara lain, ia mencoba membuat printer 3D. “Pada usia 19, seseorang belum tentu memiliki selera terbaik,” akunya. Kemudian pada tahun 2013 mengikuti rangkaian seminar tentang pembelajaran mendalam dan menggembleng. Dia meninggalkan sesi dengan pertanyaan yang sepertinya tidak ditanyakan orang lain: Apa yang terjadi pada sistem tersebut?
Olah mengalami kesulitan menarik orang lain dalam pertanyaan itu. Saat dia bergabung dengan Google Brain sebagai pekerja magang pada tahun 2014, dia mengerjakan produk aneh bernama Deep Dream, sebuah eksperimen awal dalam pembuatan gambar AI. Jaringan saraf menghasilkan pola-pola psikedelik yang aneh, seolah-olah perangkat lunak tersebut menggunakan narkoba. “Kami tidak memahami hasilnya,” kata Olah. “Tapi satu hal yang mereka tunjukkan adalah ada banyak struktur di dalam jaringan saraf.” Setidaknya ada beberapa unsur, simpulnya, bisa dipahami.
Olah berangkat untuk menemukan elemen seperti itu. Dia ikut mendirikan jurnal ilmiah bernama Menyaring untuk menghadirkan “lebih banyak transparansi” pada pembelajaran mesin. Pada tahun 2018, ia dan beberapa rekan Google menerbitkan makalah di Distill yang berjudul “The Building Blocks of Interpretability.” Mereka telah mengidentifikasi, misalnya, bahwa neuron tertentu mengkodekan konsep telinga terkulai. Dari sana, Olah dan rekan penulisnya dapat mengetahui bagaimana sistem mengetahui perbedaan antara, misalnya, seekor anjing Labrador retriever dan seekor kucing macan. Mereka mengakui dalam makalahnya bahwa ini hanyalah permulaan dari penguraian jaringan saraf: “Kita perlu menjadikannya dalam skala manusia, daripada membuang informasi secara berlebihan.”
Makalah itu adalah lagu terbaik Olah di Google. “Sebenarnya ada perasaan di Google Brain bahwa Kamu tidak terlalu serius jika berbicara tentang keamanan AI,” katanya. Pada tahun 2018 OpenAI menawarinya kesempatan untuk membentuk tim permanen di bidang interpretabilitas. Dia melompat. Tiga tahun kemudian, dia bergabung dengan sekelompok rekan OpenAI untuk mendirikan Anthropic.