Sebelum ini, banyak laporan yang mendakwa OpenAI menggunakan kandungan YouTube untuk melatih model teks-ke-video Sora. Kini, dilaporkan bahawa syarikat seperti Apple, Nvidia, Anthropic dan banyak lagi juga menggunakan ‘data tersedia secara umum’ yang dijana oleh pengguna untuk melatih model AI mereka.
Menurut sumber, Apple dan syarikat lain menggunakan set data yang dipanggil Sarikata YouTube (Subtitles) yang merangkumi transkrip 173,536 video daripada lebih 48,000 saluran. Apple secara teknikal mengelakkan kesalahan kerana mereka memperoleh AI daripada syarikat yang menggunakan transkrip daripada video YouTube dan bukannya menggunakan data secara langsung.
Ini akan menjadi masalah yang berkembang untuk masa yang lama. Set data Sarikata YouTube tidak menyertakan imejan daripada video tetapi menyertakan beberapa sari kata yang diterjemahkan dalam bahasa. Dataset dilaporkan dicipta oleh makmal penyelidikan bukan untung yang dipanggil Eleuther AI yang memfokuskan pada mempromosikan norma sains terbuka.
Tiada wakil syarikat yang disebutkan di atas mengulas mengenai perkara itu. Ketua eksekutif YouTube, Neal Mohan telah pun menjelaskan dalam temu bual bahawa syarikat yang menggunakan video YouTube untuk melatih model AI mereka adalah pelanggaran jelas terhadap dasar platform.
Kongsi pendapat anda di Facebook kami dan teruskan bersama Rakan Teknologi Utama Malaysia untuk berita teknologi terkini.
Sumber: Wired







