Google, Gemini 2.5 Computer Use (Bilgisayar Kullanımı) adlı yeni bir yapay zeka modeli yayınladı. Bu model, yapay zeka temsilcilerinin web siteleri ve kullanıcı arayüzleriyle tıpkı bir insan gibi etkileşim kurmasını sağlıyor. Şu anda Google AI Studio ve Vertex AI'da Gemini API aracılığıyla genel önizleme aşamasında.
Gemini 2.5 Computer Use Hakkında
Model, Gemini 2.5 Pro'nun görsel anlama ve akıl yürütme yetenekleri üzerine kuruludur. Tıklama, yazma, kaydırma, gezinme, açılır menüleri açma ve URL'ler arasında gezinme gibi çok çeşitli tarayıcı tabanlı eylemleri gerçekleştirebilir.
Google, modelin Online-Mind2Web, WebVoyager ve AndroidWorld gibi çeşitli kıyaslamalarda rakip araçlardan daha iyi performans gösterdiğini ve daha düşük gecikme süresi sağladığını belirtiyor.
API'lere dayanan geleneksel yapay zeka modellerinin aksine, Gemini 2.5 Bilgisayar Kullanımı web arayüzlerinin ekran görüntülerini işler ve yanıt olarak belirli kullanıcı arayüzü eylemleri oluşturur.
Aracı bir görev istemi, dijital ortamın ekran görüntüsü ve son eylemlerin geçmişini alır. Ardından arayüzü analiz eder ve bir düğmeye tıklama veya bir alana yazma gibi bir kullanıcı arayüzü eylemi döndürür. Eylem istemci tarafında yürütülür ve göreve döngüsel olarak devam etmek için modele yeni bir ekran görüntüsü gönderilir.
Google, modelin performansını, temsilcinin dijital bir beyaz tahtadaki yapışkan notları nasıl sıraladığını ve evcil hayvan bilgilerini bir web sitesinden bir CRM sistemine nasıl aktardığını gösteren örneklerle kanıtladı. Demo videolar, süreci gerçek zamanlı olarak göstermek için hızlandırılmıştır.
Gemini 2.5 Computer Use modeli, şu anda 13 eylemi destekliyor ve web tarayıcılarıyla en iyi şekilde çalışıyor. Google, mobil kıyaslamalarda potansiyelini gösterse de, henüz masaüstü işletim sistemi düzeyindeki görevler için optimize edilmediğini belirtti.
Google, kötüye kullanımı önlemek için güvenlik önlemleri de uyguladı. Model tarafından önerilen her eylem, yürütülmeden önce bir güvenlik hizmeti tarafından incelenir. Geliştiriciler, finansal işlemler gibi yüksek riskli görevler için belirli eylemleri kısıtlayabilir veya açık kullanıcı onayı gerektirebilir.
Google'ın birçok dahili ekibi bu modeli üretimde kullanıyor. Bu model, Search ve Firebase gibi platformlarda kullanıcı arayüzü testi ve otomasyon görevlerini destekliyor. Erken erişim programındaki harici geliştiriciler, iş akışı otomasyonu ve yardımcı araçlar geliştirmek için bu modeli kullandı.
Geliştiriciler, modeli Google AI Studio veya Vertex AI aracılığıyla kullanmaya başlayabilirler. Google ayrıca, test ve deneme için Browserbase aracılığıyla bir demo ortamı da sağlıyor.