Home Teknologi Model o3 OpenAI Mengklaim Kecerdasan Tingkat Manusia pada Tolok Ukuran, Tapi Mungkin...

Model o3 OpenAI Mengklaim Kecerdasan Tingkat Manusia pada Tolok Ukuran, Tapi Mungkin Tidak Secerdas Itu

28
0

OpenAI meluncurkan seri o3 model kecerdasan buatan (AI) yang berfokus pada penalaran bulan lalu. Selama streaming langsung, perusahaan membagikan skor tolok ukur model berdasarkan pengujian internal. Sementara semua skor yang dibagikan sangat mengesankan dan menyoroti peningkatan kemampuan penerus o1, satu skor benchmark menonjol. Pada tolok ukur ARC-AGI, model bahasa besar (LLM) mencetak 85 persen, mengalahkan skor terbaik sebelumnya dengan selisih 30 persen. Menariknya, skor ini juga setara dengan skor rata-rata manusia pada tes tersebut.

OpenAI Skor 85 Persen pada Tolok Ukur ARC-AGI

Namun, hanya karena o3 mencetak skor tinggi dalam ujian, apakah itu berarti kecerdasannya sama dengan rata-rata manusia? Ini akan lebih mudah dijawab jika model AI dirilis di domain publik dan kami dapat mengujinya. Karena OpenAI belum mengungkapkan apa pun tentang arsitektur model, teknik pelatihan, atau kumpulan data, sulit untuk mengklaim apa pun secara meyakinkan.

Ada hal-hal tertentu yang kami ketahui tentang model yang berfokus pada penalaran perusahaan AI yang dapat membantu kami memahami apa yang diharapkan dari LLM OpenAI yang akan datang. Pertama, sejauh ini, model o-series tidak memiliki perombakan besar dalam arsitektur atau kerangka kerjanya tetapi disesuaikan untuk menampilkan kemampuan yang ditingkatkan.

Misalnya, pengembang menggunakan teknik dengan seri model AI o1 yang disebut komputasi waktu uji. Dengan ini, model AI diberi waktu pemrosesan tambahan untuk dihabiskan pada pertanyaan dan ruang kerja untuk menguji teori dan memperbaiki kesalahan apa pun. Demikian pula, model GPT-4o hanyalah versi GPT-4 yang disesuaikan.

Kecil kemungkinan perusahaan akan membuat perubahan besar pada arsitektur dengan model o3, mengingat juga dikabarkan sedang mengerjakan model AI GPT-5, yang dapat diluncurkan akhir tahun ini.

Datang ke tolok ukur ARC-AGI (Abstract Reasoning Corpus – Artificial General Intelligence), ia menampilkan serangkaian pertanyaan pengenalan pola berbasis grid yang membutuhkan kemampuan penalaran dan pemahaman spasial untuk menyelesaikannya. Ini dapat dilakukan dengan kumpulan data besar data berkualitas tinggi yang berfokus pada penalaran dan logika berbasis bakat.

Namun, jika ini sesederhana itu, model AI yang lebih lama juga akan mendapat skor tinggi dalam tes. Khususnya, skor tertinggi sebelumnya adalah 55 persen dibandingkan dengan skor 85 persen o3. Ini menyoroti bahwa pengembang telah menambahkan teknik dan algoritme penyempurnaan baru untuk meningkatkan kemampuan penalaran model. Sejauh mana tidak dapat dinyatakan kecuali OpenAI secara resmi mengungkapkan detail teknisnya.

Karena itu, kecil kemungkinan model AI o3 akan mencapai AGI atau kecerdasan tingkat manusia. Pertama, jika itu masalahnya, itu akan menandai akhir dari kemitraan perusahaan dengan Microsoft, yang dijadwalkan akan berakhir setelah model OpenAI mencapai status AGI. Kedua, banyak pakar AI, termasuk Geoffrey Hinton, bapak baptis AI, telah berulang kali menyoroti bahwa kita masih bertahun-tahun lagi untuk mencapai AGI.

Akhirnya, AGI adalah pencapaian besar sehingga jika OpenAI mencapai tonggak sejarah itu, itu akan secara eksplisit memberi tahu orang-orang alih-alih membagikan petunjuk halus tentangnya. Apa yang jauh lebih mungkin di sini adalah bahwa model AI o3 telah menemukan cara untuk meningkatkan kemampuan penalaran berbasis pola dari model (baik dengan menambahkan data pengambilan sampel yang cukup atau dengan mengubah metode pelatihan), seperti yang juga disorot dalam laporan PTI.

Namun, peningkatan ini kemungkinan sangat terisolasi dan tidak berarti peningkatan tingkat kecerdasan model secara keseluruhan.

Sumber