Klasik bir zeka testi, yapay zekanın en büyük zayıf noktasını ortaya çıkardı!

Yapay zekâ sistemleri makale yazabilir, soruları yanıtlayabilir ve karmaşık problemleri çözebilir. Ancak yeni araştırmalar, insanların her gün yaptığı bir şeyde zorlanabileceklerini öne sürüyor: dikkat dağıtıcı unsurlar araya girdiğinde eldeki göreve odaklanmak.

Suketu Patel liderliğindeki araştırmacılar, önde gelen birkaç yapay zeka modelini Stroop testi adı verilen bilinen bir psikoloji deneyine tabi tuttular. Sonuçlar, yapay zeka sistemlerinin bilgiyi işleme biçimi ile insan beyninin dikkati yönetme biçimi arasında önemli bir fark olduğunu ortaya koydu.

Stroop Görevi Nedir?

Stroop testi, dikkat, konsantrasyon ve öz denetimi incelemek için onlarca yıldır kullanılan klasik bir psikolojik testtir.

Testte, "kırmızı", "mavi" veya "yeşil" gibi renk sözcükleri renkli mürekkeple gösterilir. Bazen sözcük ve mürekkep rengi eşleşir. Örneğin, "kırmızı" sözcüğü kırmızı mürekkeple yazılabilir. Bazen de zıtlık gösterirler, örneğin "kırmızı" sözcüğü mavi mürekkeple yazılmış olabilir.

Katılımcılardan kelimeyi okumak yerine mürekkebin rengini söylemeleri isteniyor.

Bu basit gibi görünse de, çoğu insan için kelime okumak otomatik bir alışkanlık olduğundan bir zorluk yaratıyor. Beyin, kelimeyi okuma dürtüsünü bastırmalı ve bunun yerine mürekkep rengini belirlemeye odaklanmalıdır.

Psikologlar bu görevi sıklıkla, insanların dikkatlerini düzenlemelerine, dikkat dağıtıcı unsurlara direnmelerine ve hedeflerine odaklanmalarına yardımcı olan bir dizi zihinsel süreç olan yürütücü kontrolü ölçmek için kullanırlar.

Yapay Zeka Dikkatini Test Etme

Araştırmacılar, modern büyük dil modellerinin (LLM'ler) bu zorluğun üstesinden insanlarla aynı şekilde gelip gelmediğini görmek istediler.

LLM'ler, ChatGPT, Claude ve Gemini gibi araçların arkasındaki yapay zeka sistemleridir. Çok büyük miktarda metin üzerinde eğitilirler ve dildeki kalıpları öğrenerek, çoğu zaman oldukça insana benzeyen yanıtlar üretebilirler.

Beş renk kelimesi içeren kısa listeler verildiğinde, yapay zeka sistemleri, kelimeler ve renkler eşleşmese bile genellikle iyi performans gösterdi.

Ancak listeler uzadıkça durum önemli ölçüde değişti.

GPT-4o, beş kelimeyle çalışırken %91 doğruluk oranına ulaştı. On kelimeyle çalışırken doğruluk oranı %57'ye düştü. Liste kırk kelimeye çıktığında ise doğruluk oranı sadece %15'e indi.

Claude 3.5 Sonnet, yirmi kelimelik listelerde istikrarlı bir performans sergiledi ancak daha sonra keskin bir düşüş yaşayarak kırk kelimelik listelerde doğruluk oranı %24'e geriledi.

Araştırmacılar GPT-5, Claude Opus 4.1 ve Gemini 2.5'te benzer örüntüler gözlemledi.

Yapay Zeka Odak Noktasını Kaybettiğinde

Renk uyumu ve uyumsuzluğu aynı listede birlikte göründüğünde zorluk daha da arttı.

Bu koşullar altında performans daha da kötüleşti. Eşleşmeyen öğeler için doğruluk oranı bazı durumlarda neredeyse sıfıra düştü.

Araştırmacılara göre, yapay zeka modelleri mürekkep renklerini tanımlama talimatını sürdürmekte zorlandılar. Bunun yerine, giderek daha çok kelimeleri kendileri okumaya yöneldiler.

Başka bir deyişle, sistemler, üretmek üzere en yoğun şekilde eğitildikleri tepkiyi tutarlı bir şekilde bastırmakta yetersiz kaldılar.

Bu bulgu özellikle ilgi çekici çünkü insanlar da benzer bir ikilemle karşı karşıya. İnsanlar genellikle mürekkep renklerini adlandırmaktan ziyade kelimeleri okumakta çok daha iyidir. Ancak bu önyargıya rağmen, çoğu birey, uzun ve çelişkili kelime ve renk listeleriyle karşı karşıya kaldığında bile yüksek doğruluk ve istikrarlı performans sergileyebilir.

İnsan Dikkatine Karşı Makine Dikkati

Bu çalışma, insan zekası ve yapay zeka arasında önemli bir ayrımı ortaya koymaktadır.

Modern yapay zeka sistemleri etkileyici dil ve akıl yürütme yetenekleri sergileyebilse de, bunların altında yatan mekanizmalar biyolojik beyinlerde bulunan dikkat süreçlerinden farklıdır.

İnsanlar genellikle belirli bir hedefe odaklanırken, rakip bilgileri de filtreleyebilirler. Sonuçlar, görevler giderek daha zorlayıcı hale geldiğinde mevcut yapay zeka modellerinin bu tür bilişsel kontrol konusunda zorlanabileceğini göstermektedir.

Araştırmacılar, bu deneylerde görülen performans düşüşünün günümüzün büyük dil modellerindeki temel sınırlamalara işaret ettiğini savunuyor. Yapay zeka bazen insan davranışını taklit edebilse de, dikkatini sürdürme yeteneğinin insanlardan çok farklı şekilde işlediği görülüyor.

Bu bulgular, en gelişmiş yapay zeka sistemlerinin bile, özellikle dikkat dağıtıcı unsurlara karşı direnç göstermeleri ve uzun bilgi dizileri üzerinde odaklanmaları gereken görevlerde, hâlâ zayıf yönleri olduğunu hatırlatıyor.

#yapay zeka