
Google DeepMind, Gemini 2.5 Pro’nun görsel algılama ve akıl yürütme kapasitesini temel alarak yeni bir model sundu: Gemini 2.5 Computer Use. Bu model, geliştiricilerin ajanlarını kullanıcı arayüzleriyle doğrudan etkileşim kuracak şekilde tasarlamasını mümkün kılıyor; örneğin form doldurma, menü seçimleri ve filtreleme gibi işlemleri otomatik yürütüyor.
Model, computer_use adlı bir araç üzerinden API aracılığıyla çalışıyor; girdi olarak kullanıcı isteği, ekran görüntüsü ve önceki etkileşim geçmişi alıyor. Model, her adımda bir UI eylemi öneriyor (örneğin tıklama, yazma) ve bu eylem önce güvenlik sisteminden geçiyor. Ardından yeni ekran görüntüsü alınıp süreç tekrarlanıyor. Benchmark testlerinde Gemini 2.5 Computer Use, çevrimiçi kontrol görevlerinde düşük gecikme süresiyle öne çıktı.
Güvenlik açısından, modelin önerdiği her işlem için “per-step safety service” kullanılıyor; yüksek riskli işlemler için kullanıcının onay vermesi isteniyor. geliştiricilere, belirli işlemleri engelleme ya da onay isteği ekleme seçenekleri sunuluyor. Bu model, şu anda Google AI Studio ve Vertex AI üzerinden önizleme aşamasında erişilebilir durumda.
Sonuç olarak, Gemini 2.5 Computer Use, ajanların doğrudan kullanıcı arayüzleriyle çalışan uygulamalar geliştirme kapasitesini önemli ölçüde ileri taşıyor. Ancak hatalı eylemler, güvenlik açıkları ya da otomatik işlemlerin kötüye kullanımı gibi riskler hâlâ dikkatle yönetilmesi gereken alanlar.
Kaynak: google
