
Google Research, kullanıcı ile model arasında etkileşimli bir süreçte görüntü üretimini iyileştiren yeni bir yaklaşım tanıttı: PASTA (Preference Adaptive and Sequential Text-to-Image Agent). Model, geleneksel metinle görüntü üretimi (text-to-image) anlayışını tek seferlik “prompt → görüntü” döngüsünden çıkarıp, çok adımlı doğrulama ve revizyon sürecine taşıyor.
PASTA’yı eğitmek için Google, önce 7.000’yi aşkın insan etkileşimi içeren bir tercih veri seti topladı; bu veri, prompt genişletme ve kullanıcı tercihi seçimlerini içeriyor. Ardından bu gerçek verilerden yola çıkarak bir kullanıcı simülatörü kuruldu. Simülatör, farklı “kullanıcı tipleri” (örn. manzara seven, soyut sanatı tercih eden) türetiyor ve bu sayede çok sayıda simüle etkileşim üretebiliyor. PASTA, her adımda dört farklı prompt genişletmesi sunmak üzere bir “slate” seçici RL (güçlendirici öğrenme) ajanı olarak çalışıyor; kullanıcı her adımda seçimini yapıyor ve model bu geri bildirim üzerinden ilerliyor.
Sonuç olarak, PASTA ile oluşturulan görüntüler, kullanıcılar tarafından daha fazla beğeniliyor — yapılan değerlendirmelerde PASTA, sabit modellerin ötesinde sonuçlar veriyor. Google ayrıca bu paradigmanın başka üretken görevlerle de uygulanabileceğini ve modelin eğitildiği simüle etkileşim verilerini açık kaynaklayarak araştırma topluluğunu bu yönde teşvik edeceğini bildiriyor.
Kaynak: google
