Hugging Face mengumumkan inisiatif baru pada hari Selasa untuk membangun Open-R1, reproduksi terbuka penuh dari model DeepSeek-R1. Perusahaan AI China yang didukung dana lindung nilai merilis model kecerdasan buatan (AI) DeepSeek-R1 di domain publik minggu lalu, mengirimkan gelombang kejutan di seluruh Silicon Valley dan NASDAQ. Alasan besarnya adalah bahwa model AI yang canggih dan berskala besar, yang dapat menyalip model o1 OpenAI, belum dirilis dalam sumber terbuka. Namun, model tersebut tidak sepenuhnya open-source, dan para peneliti Hugging Face sekarang mencoba menemukan potongan-potongan yang hilang.
Mengapa Membangun Wajah Pelukan Open-R1?
Dalam sebuah posting blog, para peneliti Hugging Face merinci alasan mereka di balik mereplikasi model AI DeepSeek yang terkenal. Pada dasarnya, DeepSeek-R1 adalah apa yang dikenal sebagai rilis “kotak hitam”, yang berarti bahwa kode dan aset lain yang diperlukan untuk menjalankan perangkat lunak tersedia, namun, kumpulan data serta kode pelatihan tidak. Ini berarti siapa pun dapat mengunduh dan menjalankan model AI secara lokal, tetapi informasi yang diperlukan untuk mereplikasi model seperti itu tidak memungkinkan.
Beberapa informasi yang belum dirilis termasuk himpunan data khusus penalaran yang digunakan untuk melatih model dasar, kode pelatihan yang digunakan untuk membuat hiperparameter yang memungkinkan model memecah dan memproses kueri kompleks, dan pengorbanan komputasi dan data yang digunakan dalam proses pelatihan.
Para peneliti mengatakan bahwa tujuan di balik membangun versi sumber terbuka sepenuhnya dari DeepSeek-R1 adalah untuk memberikan transparansi tentang hasil pembelajaran penguatan yang ditingkatkan dan untuk berbagi wawasan yang dapat direproduksi dengan komunitas.
Inisiatif Open-R1 Hugging Face
Karena DeepSeek-R1 tersedia di domain publik, para peneliti dapat memahami beberapa aspek model AI. Misalnya, DeepSeek-V3, model dasar yang digunakan untuk membuat R1, dibangun dengan pembelajaran penguatan murni tanpa pengawasan manusia. Namun, model R1 yang berfokus pada penalaran menggunakan beberapa langkah penyempurnaan yang menolak output berkualitas rendah, dan menghasilkan jawaban yang halus dan konsisten.
Untuk melakukan ini, para peneliti Hugging Face telah mengembangkan rencana tiga langkah. Pertama, versi suling R1 akan dibuat menggunakan kumpulan datanya. Kemudian, para peneliti akan mencoba mereplikasi pola pembelajaran penguatan murni, dan kemudian para peneliti akan memasukkan fine-tuning yang diawasi dan pembelajaran penguatan lebih lanjut sampai mereka menyesuaikan respons setara dengan R1.
Kumpulan data sintetis yang berasal dari penyulingan model R1 serta langkah-langkah pelatihan kemudian akan dirilis ke komunitas sumber terbuka untuk memungkinkan pengembang mengubah model bahasa besar (LLM) yang ada menjadi model penalaran hanya dengan menyempurnakannya.
Khususnya, Hugging Face menggunakan proses serupa untuk menyaring model AI Llama 3B untuk menunjukkan bahwa komputasi waktu pengujian (juga dikenal sebagai komputasi waktu inferensi) dapat secara signifikan meningkatkan model bahasa kecil.