Tencent Rilis HunyuanWorld-Voyager, AI yang Ubah Foto Jadi Video 3D Konsisten

KaltimExpose.com – Tencent resmi meluncurkan HunyuanWorld-Voyager, model kecerdasan buatan (AI) terbaru yang mampu mengubah sebuah foto menjadi rangkaian video konsisten layaknya eksplorasi dunia 3D. Teknologi ini memungkinkan pengguna mengatur jalur kamera untuk menjelajahi pemandangan virtual, meski hasilnya belum sepenuhnya menggantikan game 3D.
Dilansir dari Ars Technica, Voyager menghasilkan video RGB dan informasi kedalaman (depth) secara bersamaan, sehingga memungkinkan rekonstruksi 3D langsung tanpa memerlukan teknik pemodelan tradisional. Setiap proses generasi menghasilkan 49 frame—sekitar dua detik video—namun beberapa klip bisa digabung menjadi rangkaian berdurasi “beberapa menit.”
Video dengan Kedalaman, Bukan Model 3D Utuh
Meski output Voyager bukan model 3D sejati, video yang dihasilkan tetap mempertahankan konsistensi spasial seolah kamera bergerak di ruang tiga dimensi nyata. Objek dalam video tetap berada pada posisi relatif yang sama ketika kamera berpindah, dan perspektif menyesuaikan dengan pergerakan. Data kedalaman yang dihasilkan juga bisa dikonversi menjadi point cloud untuk keperluan rekonstruksi 3D.
Cara Kerja Voyager
Pengguna cukup memasukkan satu foto dan mendefinisikan jalur kamera—misalnya maju, mundur, berbelok, atau bergerak ke samping. Voyager kemudian menggabungkan data gambar dan kedalaman dengan sistem “world cache” yang efisien untuk menghasilkan video konsisten sesuai pergerakan kamera.
Tencent menjelaskan, sistem ini terdiri dari dua bagian utama. Pertama, model menghasilkan video berwarna dan data kedalaman yang saling terhubung. Kedua, world cache menyimpan koleksi titik 3D dari frame sebelumnya. Titik-titik tersebut kemudian diproyeksikan kembali ke 2D pada sudut kamera baru, sehingga frame selanjutnya tetap selaras dengan frame sebelumnya.
Dilatih dengan 100 Ribu Video
Voyager dilatih menggunakan lebih dari 100 ribu klip video, termasuk adegan buatan dari Unreal Engine, untuk meniru pergerakan kamera di lingkungan virtual. Proses pelatihan ini menggunakan sistem otomatis yang menganalisis video dan menghitung kedalaman tiap frame tanpa pelabelan manual.
Berbeda dengan generator video AI lain seperti Sora, Voyager dilatih untuk menjaga konsistensi spasial dengan menambahkan geometric feedback loop. Setiap frame yang dihasilkan dikonversi ke titik 3D lalu diproyeksikan kembali ke 2D sebagai referensi frame berikutnya. Meski cara ini memperbaiki konsistensi, Voyager masih terbatas pada sudut pandang tertentu. Rotasi penuh 360 derajat misalnya, sering gagal menjaga koherensi akibat akumulasi kesalahan pola.
Performa dan Batasan
Untuk berjalan optimal, Voyager membutuhkan GPU dengan memori minimal 60GB untuk resolusi 540p, dan disarankan 80GB agar hasil lebih baik. Model ini sudah tersedia di Hugging Face lengkap dengan kode untuk penggunaan single GPU maupun multi-GPU.
Namun, ada batasan lisensi. Sama seperti model Hunyuan lain, Voyager dilarang digunakan di Uni Eropa, Inggris, dan Korea Selatan. Penggunaan komersial dengan lebih dari 100 juta pengguna aktif bulanan juga memerlukan izin khusus dari Tencent.
Skor Benchmark Tertinggi
Dalam uji WorldScore yang dikembangkan Stanford University, Voyager meraih skor tertinggi 77,62, mengungguli WonderWorld (72,69) dan CogVideoX-I2V (62,15). Voyager unggul dalam konsistensi gaya (84,89) dan kualitas visual (71,09), meski masih berada di posisi kedua dalam kendali kamera (85,95) di bawah WonderWorld (92,98).
Meski menjanjikan, penggunaan Voyager untuk menciptakan pengalaman interaktif real-time masih jauh dari kata sempurna. Kebutuhan daya komputasi besar dan keterbatasan dalam mempertahankan koherensi jangka panjang menjadi tantangan utama. Namun, seperti halnya Google Genie 3 dan Mirage 2, Voyager menandai langkah awal menuju era baru seni generatif interaktif.
Update Berita Kaltim gak harus ribet! Yuk Gabung Channel WhatsApp Kaltim Expose Whatsapp Kaltim Expose untuk dapetin informasi terbaru dengan cara yang mudah dan menyenangkan.