OpenAI, Google DeepMind, Anthropic: Yapay Zekayı Anlama Yeteneğimizi Kaybediyoruz

OpenAI, Google DeepMind , Anthropic ve Meta'dan bilim insanları, yapay zeka güvenliği konusunda ortak bir uyarı yayınlamak için amansız şirket rekabetlerini terk ettiler. Bu rakip şirketlerdeki 40'tan fazla araştırmacı, bugün yapay zekanın akıl yürütmesini izlemek için verilen kısa sürenin sonsuza dek ve yakında kapanabileceğini savunan bir araştırma makalesi yayınladı.

Bu alışılmadık iş birliği, yapay zeka sistemlerinin soruları yanıtlamadan önce insan dilinde "sesli düşünme" yeteneği geliştirmesiyle ortaya çıkıyor. Bu, karar alma süreçlerine göz atma ve zararlı niyetleri eyleme dönüşmeden önce yakalama fırsatı yaratıyor. Ancak araştırmacılar, bu şeffaflığın kırılgan olduğu ve yapay zeka teknolojisi ilerledikçe ortadan kalkabileceği konusunda uyarıyor.

Yapay Zeka Anlama ve Anlatma Konusunda Nereye Gidiyor?

Araştırmacılar, "İnsan dilinde 'düşünen' yapay zeka sistemleri, yapay zeka güvenliği için eşsiz bir fırsat sunuyor: Düşünce zincirlerini, kötü niyetli davranışlar için izleyebiliyoruz, diye açıklıyor. Ancak bu izleme yeteneğinin "kırılgan" olabileceğini ve çeşitli teknolojik gelişmeler nedeniyle ortadan kalkabileceğini vurguluyorlar.

Bu çığır açan gelişme, OpenAI'nin o1 sistemi gibi yapay zeka akıl yürütme modellerindeki son gelişmelere odaklanıyor. Bu modeller, insanların okuyup anlayabileceği adım adım akıl yürütmeler olan içsel düşünce zincirleri üreterek karmaşık sorunları çözüyor. Öncelikli olarak insan yazısı metinlerle eğitilen önceki yapay zeka sistemlerinin aksine, bu modeller, potansiyel olarak zararlı olanlar da dahil olmak üzere gerçek niyetlerini ortaya çıkarabilecek içsel akıl yürütmeler oluşturuyor.

Yapay zeka modelleri uygunsuz davrandıklarında (eğitim hatalarından faydalanmak, verileri manipüle etmek veya saldırılara kurban gitmek gibi), genellikle akıl yürütme süreçlerinde itirafta bulunurlar. Araştırmacılar, modellerin iç düşüncelerine "Hadi hackleyelim", "Hadi sabote edelim" veya "Web sitesi bana emrettiği için para transfer ediyorum" gibi ifadeler yazdığı örnekler buldular.

OpenAI'nin baş teknoloji sorumlusu ve makalenin ortak yazarı Jakub Pachocki, bu özelliğin önemini bir sosyal medya paylaşımında şöyle anlattı: “Düşünce zincirinin sadakati ve yorumlanabilirliğinin potansiyeli beni son derece heyecanlandırıyor. Bu özellik, o1-preview ile başlayarak akıl yürütme modellerimizin tasarımını önemli ölçüde etkiledi.”

İzlemenin teknik temeli, mevcut yapay zeka sistemlerinin nasıl çalıştığına dayanır. Uzun süreli akıl yürütme gerektiren karmaşık görevler için, yapay zeka modelleri düşünce zincirlerini çalışma belleği olarak kullanmalı ve akıl yürütme süreçlerini insan gözlemciler için kısmen görünür kılmalıdır. Araştırmacılar, bunun, bazı düşüncelerin okunabilir bir dilde gerçekleşmesini gerektiren bir "dışsallaştırılmış akıl yürütme özelliği" yarattığını açıklıyor.

Şeffaflık çeşitli yollarla ortadan kalkabilir. Yapay zeka şirketleri, modellerin yöntemlerinden bağımsız olarak doğru çıktılar için ödüllendirildiği takviyeli öğrenmeyi kullanarak eğitimleri yaygınlaştırdıkça, sistemler insan tarafından okunabilir akıl yürütmeden uzaklaşarak daha verimli ancak anlaşılması zor dahili dillere doğru kayabilir.

Önceki araştırmalar, sonuç odaklı ödüllerle ince ayar yapılmış dil modellerinin, anlaşılır İngilizce yerine anlaşılmaz kısayollar sunabileceğini gösteriyor. İnsan yapımı eğitim verilerinden yapay zeka tarafından üretilen akıl yürütmeye geçiş, bu eğilimi hızlandırabilir.

OpenAI araştırmacısı ve başyazar Bowen Baker , sosyal medya paylaşımlarında bu endişeleri dile getirdi. "Mevcut CoT izlenebilirliği son derece kırılgan olabilir. Yüksek işlemli RL, alternatif model mimarileri, belirli süreç denetim biçimleri vb., bunların hepsi, onların düşüncelerini bulanıklaştıran modellere yol açabilir" diye uyardı.

Yeni yapay zeka mimarileri başka bir tehdit oluşturuyor. Araştırmacılar, ayrık kelimeler yerine sürekli matematiksel uzaylarda akıl yürüten sistemler geliştiriyor ve bu da potansiyel olarak dil tabanlı düşünceye olan ihtiyacı tamamen ortadan kaldırıyor. Araştırmacılar, "bu gizli akıl yürütme modellerinin düşüncelerinin hiçbirini sözlü olarak ifade etmesine gerek kalmayabilir ve bu nedenle güvenlik avantajlarını kaybedebilirler" diye yazıyor.

Kasıtlı değişiklikler olmasa bile, dolaylı baskılar şeffaflığı zedeleyebilir. Yapay zeka çıktıları, insan denetçilere iyi görünecek şekilde optimize edilirse, bu, söz konusu çıktılara yol açan akıl yürütme zincirlerini etkileyebilir. Modeller ayrıca, akıl yürütmelerinin izlendiğinin farkına vardıklarında düşüncelerini gizlemeyi de öğrenebilirler.

Araştırmacılar, düşünce zinciri izlemesinin güvenilir bir güvenlik önlemi olarak kullanılabilmesi için araştırılması gereken çok sayıda acil sorunun varlığını tespit ediyor. Bu izlemenin ne zaman birincil güvenlik aracı olarak güvenilir olabileceğini anlamaları, hangi eğitim süreçlerinin şeffaflığı bozduğunu belirlemeleri ve modellerin muhakemelerini gizlemeye çalıştıkları zamanları tespit etmek için daha iyi teknikler geliştirmeleri gerekiyor.

Özellikle endişe verici bir olasılık, gelecekteki yapay zeka sistemlerinin, akıl yürütmelerinin izlendiğinin farkına vardıklarında düşüncelerini kasıtlı olarak gizleyebilecek olmalarıdır. Araştırmacılar bu " bariz endişeyi " kabul ediyor ve modellerin, izlemelerden kaçınmak için özel bir eğitim almadan bile kötü niyetli akıl yürütmeleri gizleyip gizleyemeyeceğini görmek için stres testi yapılmasını talep ediyor.

Bilim insanları ayrıca, farklı yapay zeka mimarilerinin izleme yeteneklerini nasıl etkilediğini ve sistemler daha verimli tasarımlar benimserken bile kısmi şeffaflığın korunup korunamayacağını anlamak istiyor. Daha hızlı hesaplama yöntemlerinden yararlanırken akıl yürütmeye dair bir miktar görünürlük sağlayan hibrit yaklaşımları araştırıyorlar.

Daha iyi izleme sistemleri oluşturmak, araştırmanın yeni bir cephesini oluşturmaktadır. Mevcut çalışmalar, daha gelişmiş olanları izlemek için daha az yetenekli dil modellerini kullanmaya odaklanmaktadır. Ancak gelecekteki çalışmalar, akıl yürütme modellerini bizzat izleyici olarak kullanmayı veya izleyicilerin düşünce süreçleri hakkında sorular sorarak yapay zeka ajanlarını sorgulamasına izin vermeyi araştırabilir.

#Anthropic

#OpenAI

#yapay zeka

#Google

#Google Deepmind