
Stability AI, generatif AI dünyasında görsel ve metin içeriklerin ardından sesin de güçlü bir şekilde öne çıkacağını gösteriyor. Yeni modeli Stable Audio 2.5, yalnızca “ses üretmekten” öteye geçerek markalara kendi özgün ses kimliğini oluşturma imkanı sunuyor.
Yeni sürümün en dikkat çekici yeniliklerinden biri, üç dakikalık müzik parçalarını “GPU’da iki saniyenin altında” süreyle üretme yeteneği. Bu, müzik ve ses prodüksiyonunun süre ve maliyet bakımından büyük ölçüde hızlanması anlamına geliyor. Ayrıca model, parçanın başı, gelişme ve çıkışı olan çok bölümlü yapıları daha iyi işleyebiliyor; melodik duygu betimlemelerine (“mood prompt”) daha hassas cevaplar verebiliyor.
Ses üzerine “inpainting” seçeneği de, prodüksiyon ekiplerine büyük kolaylık sağlıyor: Mevcut bir ses kaydı yükleyip parça başlangıç/noktasını belirleyerek kalan kısmın model tarafından estetik biçimde tamamlanmasını mümkün kılıyor. Bu, reklamdan oyunlara, mağaza deneyimlerinden video prodüksiyonuna kadar pek çok kullanım alanında değerli bir özellik.
Yine de tüm bu yeniliklere rağmen Stable Audio 2.5’in yaygın kullanıma geçmeden önce halledilmesi gereken bazı meseleler var. Telif hakkı karmaşası, ses üretimlerinin standardizasyonu, duygu/tür betimlemeleriyle ilgili beklentileri tutturmak ve teknik altyapı gereksinimleri bunlardan bazıları…
Kaynak: stability
