OpenAI mungkin telah melatih model kecerdasan buatan (AI) pada konten berhak cipta, menurut sebuah makalah penelitian. Sebuah makalah yang baru-baru ini diterbitkan dari organisasi nirlaba AI Disclosures Project, model bahasa besar (LLM) perusahaan AI yang berbasis di San Francisco baru-baru ini menunjukkan pengakuan yang lebih tinggi terhadap konten berhak cipta dibandingkan dengan model lamanya. Para peneliti menggunakan metode yang baru-baru ini dikembangkan yang disebut DE-COP untuk mendeteksi konten berhak cipta dalam kumpulan data pelatihan model AI. Khususnya, penelitian ini menemukan bahwa GPT-4o mini tidak dilatih pada konten berhak cipta tertentu.
Peneliti Menggunakan DE-COP untuk Menguji Kumpulan Data Pelatihan OpenAI
Studi yang berjudul Beyond Public Access in LLM Pre-Training Data ini dilakukan untuk memeriksa apakah model AI OpenAI dilatih pada konten buku non-publik. Untuk penelitian ini, para peneliti berfokus pada O’Reilly Media, platform pembelajaran online AS, yang berisi banyak buku berhak cipta. Pendiri platform, Tim O’Reilly, juga merupakan salah satu penulis studi tersebut.
Para peneliti menggunakan metode DE-COP untuk menguji apakah data pelatihan model AI mengandung materi berhak cipta. Ini adalah tes yang relatif baru, diperkenalkan dalam sebuah makalah yang diterbitkan pada tahun 2024. Metode ini, juga dikenal sebagai serangan inferensi keanggotaan, menguji model AI dengan tes pilihan ganda untuk melihat apakah dapat mengidentifikasi konten berhak cipta dari alternatif parafrasekan yang dihasilkan mesin.
Para peneliti menggunakan Claude 3.5 Sonnet untuk memparafrasekan materi berhak cipta. Sebanyak 3.962 kutipan paragraf dari 34 buku O’Reilly Media digunakan untuk ujian.
Berdasarkan pengujian yang dilakukan, para peneliti mengklaim telah menemukan bahwa model AI GPT-4o menunjukkan pengakuan tertinggi dari konten buku O’Reilly yang dilindungi hak cipta dan berbayar dengan skor Area Under the Receiver Operating Characteristic Curve (AURUC) 82 persen. Khususnya, skor AURUC adalah bagian dari metode DE-COP dan berasal dari tingkat tebakan dari tes pilihan ganda.
Studi ini juga menemukan bahwa model AI OpenAI yang lebih lama, seperti GPT-3.5 Turbo, menunjukkan pengenalan konten yang lebih rendah dibandingkan dengan GPT-4o, tetapi masih cukup tinggi untuk menjadi signifikan. Namun, GPT-4o mini ditemukan tidak dilatih pada buku O’Reilly Media berbayar. Makalah tersebut menyatakan alasannya mungkin karena tes tersebut tidak efektif terhadap model bahasa yang lebih kecil.