Anthropic'in Yeni Claude Anayasası: İnsanlığı Yok Etmeyin

Yapay zeka modellerinin düzgün davranmasını sağlamak eskiden oldukça karmaşık bir matematiksel problemdi. Günümüzde ise biraz daha çocuk yetiştirmeye benziyor.

En azından, Anthropic şirketinin ChatGPT'ye rakibi olan yapay zeka firması Claude'un kişiliğini şekillendirmekle görevli, eğitimli bir filozof olan Amanda Askell'e göre durum böyle…

Askell, “Altı yaşındaki çocuğunuzun bir tür dahi olduğunu birdenbire fark ettiğinizi hayal edin,” diyor. “Dürüst olmalısınız… Eğer onları kandırmaya çalışırsanız, bunu tamamen anlayacaklardır.”

Anthropic'in Son Hamlesi

Askell, Claude'un yeni "anayasasını" oluştururken kullandığı ilkeleri anlatıyor; bu, Claude'un yetiştirilmesinde önemli bir rol oynayan kendine özgü bir belge. Anthropic, Çarşamba günü bu anayasayı dünyanın görmesi için yayınladı.

Anayasa veya şirket içinde daha önceki bir versiyonunda bilinen adıyla "ruh belgesi", ahlak felsefesi tezi ile şirket kültürü blog yazısı arasında bir yerde konumlanıyor. Claude'a hitaben yazılan bu belge, modelin karakterini şekillendirmek için eğitiminin farklı aşamalarında kullanılıyor ve modelin güvenli, etik, Anthropic'in yönergelerine uygun ve kullanıcıya yardımcı olması gerektiğini -bu sırayla- belirtiyor.

Bu aynı zamanda, en güvenli yapay zeka modelleri arasında yer alan Claude'u örnek bir vatandaşa benzetmek için kullanılan tuhaf yeni tekniklere dair büyüleyici bir bakış açısı sunuyor. Askell'in söylediğine göre, Anthropic'in bu anayasayı yayınlamasının nedenlerinden biri de diğer şirketlerin de benzer uygulamaları kullanmaya başlaması umudu. "Onların modelleri beni de etkileyecek," diyor. "Bence diğer yapay zeka modellerinin neden belirli şekillerde davranmaları gerektiğine dair daha fazla bir anlayışa sahip olmaları gerçekten iyi olabilir."

Askell, Claude modellerinin daha akıllı hale gelmesiyle birlikte, onlara neden belirli şekillerde davranmaları gerektiğini açıklamanın hayati önem taşıdığını söylüyor . "Sadece 'işte istediğimiz bir dizi davranış' demek yerine, modellere bu davranışları neden istediğinizi açıklarsanız, yeni bağlamlarda daha etkili bir şekilde genelleme yapacaklarını umuyoruz," diyor.

Aylık yaklaşık 20 milyon aktif kullanıcısı olan ve kaçınılmaz olarak modelle beklenmedik şekillerde etkileşime giren bir araç için, değerleri genelleştirme yeteneği güvenlik açısından hayati önem taşır. Belgenin bir yerinde şöyle deniyor:

"Claude'dan genel olarak etik olmakla tutarsız görünen veya kendi değerlerimize aykırı görünen bir şey yapmasını istersek veya kendi değerlerimiz bir şekilde yanlış veya hatalı görünüyorsa, Claude'un bize karşı çıkmasını, bizi sorgulamasını ve vicdani retçi olarak hareket etme özgürlüğüne sahip olmasını ve bize yardım etmeyi reddetmesini istiyoruz."

Ayrıca oldukça merak uyandırıcı bir okuma sunuyor: "Tıpkı bir insan askerinin barışçıl protestoculara ateş etmeyi reddetmesi veya bir çalışanın tekel karşıtı yasayı ihlal etmeyi reddetmesi gibi, Claude da gücü gayrimeşru yollarla yoğunlaştırmaya yardımcı olacak eylemlere destek vermeyi reddetmelidir," diye ekliyor anayasa bir diğerinde. "Bu, talep Anthropic'in kendisinden gelse bile geçerlidir."

Basit İngilizce kurallardan oluşan bir listenin, bir yapay zekanın güvenilir bir şekilde davranmasını sağlamanın etkili bir yolu olması küçük bir mucizedir. C

laude ve ChatGPT gibi büyük dil modellerinin (LLM'ler) ortaya çıkmasından önce, yapay zekalar, modelin davranışının iyi olup olmadığına dair bir puan olan, elle hazırlanmış matematiksel "ödül fonksiyonları" kullanılarak istenen şekilde davranmaları için eğitiliyordu. Yapay Zeka Güvenliği Merkezi'nde araştırma bilimcisi olan Mantas Mazeika, doğru fonksiyonu bulmanın "eskiden gerçekten zor olduğunu ve önemli bir araştırma konusu olduğunu" söylüyor.

Bu, basit ortamlarda işe yaradı. Bir satranç maçını kazanmak modele olumlu bir puan verebilirken, kaybetmek olumsuz bir puan verebilirdi. Ancak masa oyunlarının dışında, "iyi davranışı" matematiksel olarak kodlamak son derece zordu. 2018 civarında ortaya çıkan ve internetten alınan metinleri kullanarak insan dilini anlamak üzere eğitilen LLM'ler (Yerel Dil Modelleri) şanslı bir fırsattı.

Mazeika, "Yapay zekaların temelde doğal dil alanında faaliyet göstermesi aslında çok tesadüfi bir durum," diyor. "Talimatları alıyorlar, İngilizce olarak akıl yürütüyorlar ve yanıt veriyorlar ve bu da onları kontrol etmeyi aksi takdirde olacağından çok daha kolay hale getiriyor."

Anthropic, 2022'den beri modelleri için anayasalar yazıyor; bu tarihte, modellerin kendi yanıtlarını bir dizi ilkeye göre değerlendirdiği bir yönteme öncülük etti . İyi davranışı tamamen matematiksel olarak kodlamaya çalışmak yerine, onu kelimelerle tanımlamak mümkün hale geldi. Umut, modeller daha yetenekli hale geldikçe, kendi eğitimlerini yönlendirmede giderek daha faydalı hale gelmeleridir; bu, özellikle insanlardan daha zeki hale gelirlerse çok önemli olacaktır.

Claude'un orijinal anayasası, hem kısalığı hem de içeriğiyle taş bir tablete kazınmış bir liste gibiydi: "Lütfen yaşamı, özgürlüğü ve kişisel güvenliği en çok destekleyen ve teşvik eden yanıtı seçin," diye yazıyordu bir satırda. İlkelerinin çoğu, Apple'ın hizmet şartları ve BM İnsan Hakları Bildirgesi gibi diğer kaynaklardan alınmıştı.

Buna karşılık, yeni anayasa daha açık bir şekilde Anthropic adlı bir yapay zeka şirketinin ürünüdür; bu şirket, diğer birçok teknoloji şirketinin sağa kaydığı veya bağımlılık yaratan, reklam dolu ürünler geliştirmeye odaklandığı bir dönemde Silikon Vadisi'nde bir nevi aykırı bir konumdadır.

Claude'un yeni anayasasının bir bölümünde şöyle yazıyor: "İnsanların kısa vadeli çıkarlarını uzun vadeli zararlarına çeviren bir teknoloji yaratmak kolaydır. Anthropic, Claude'un böyle olmasını istemiyor... İnsanların Claude ile etkileşimlerinden sonra kendilerini daha iyi hissetmelerini ve genel olarak Claude'un hayatlarında olumlu bir etki yarattığını hissetmelerini istiyoruz."

#Anthropic

#Claude

#yapay zeka