Yapay zeka bir çok testte insanları geride bıraktı: Kritik sonuçlar açıklandı

Raporun en önemli bulgularından biri, yapay zekanın insanlarla karşılaştırıldığında gösterdiği ilerlemelerdir. Yapay zeka, son yıllarda çeşitli alanlarda insanları geride bırakmayı başarmıştır. Örneğin, 2015'te görüntü sınıflandırma, 2017'de temel metin anlama, 2020'de görsel muhakeme ve 2021'de doğal dil işleme gibi alanlarda yapay zeka insanlardan daha başarılı hale gelmiştir.

Yapay zekanın bu hızlı ilerleyişi, mevcut ölçütlerin artık yetersiz kaldığını göstermektedir. Bu nedenle, araştırmacılar yeni ve daha zorlu testler geliştirme çabası içindedir. Bu testler, yapay zekanın yeteneklerini değerlendirmenin yanı sıra, insanlarla yapay zekalar arasındaki farklılıkları vurgulamak ve insanların hangi alanlarda avantajlı olduğunu belirlemek için de kullanılmaktadır.

Ancak, belirtilmelidir ki, rapordaki bulguların bazıları eski ölçütlerle elde edilmiş olabilir ve bu ölçütlerin geçerliliğini yitirmiş olabilir. Bununla birlikte, genel eğilim net bir şekilde ortaya konmuştur: yapay zeka hızla gelişmekte ve insanların yeteneklerini giderek daha fazla geride bırakmaktadır.

Karmaşık akıl yürütmede büyük gelişme yaşandı

Yeni AI Endeksi raporu, 2023'te yapay zekanın karmaşık bilişsel görevlerde, özellikle ileri düzey matematik problemleri çözme ve görsel sağduyulu akıl yürütme konularında hala zorluklar yaşadığını ortaya koyuyor. Ancak, yapay zeka bu alanlarda kötü bir performans sergilemiyor.

Örneğin, MATH adlı 12.500 zorlu matematik probleminin bulunduğu bir veri setinde, yapay zeka performansı son iki yılda önemli ölçüde arttı. 2021'de, yapay zeka sistemleri problemlerin sadece %6,9'unu çözebiliyordu. Ancak 2023'te, GPT-4 tabanlı bir model soruların %84,3'ünü başarıyla çözebildi. Bu oran insan ortalamasının %90'ı civarında.

Diğer bir önemli alan ise görsel sağduyu muhakemesi (VCR). Bu alan, yapay zekanın görsel bağlamı nasıl kullandığını değerlendiriyor. Örneğin, bir masanın üzerindeki bir kedinin resmi verildiğinde, VCR'li bir yapay zeka, kedinin masadan atlayabileceğini veya masanın kedinin ağırlığını taşıyacak kadar sağlam olup olmadığını tahmin etmelidir.

Raporda, 2022 ile 2023 yılları arasında VCR performansında %7,93'lük bir artışla 81,60'a ulaşıldığı belirtiliyor (insan ortalaması 85).

Doğruluk konusunda da büyük ilerleme kaydedildi

Şu anda yapay zeka, birçok sektörde yazılı içerik üretiyor. Ancak, büyük dil modelleri (LLM) hala bazı zorluklarla karşı karşıya. Bu modeller, bazen yanlış veya hatalı bilgiler üretebiliyorlar, bu da "halüsinasyonlar" olarak adlandırılıyor.

Yeni AI Endeksi raporunda, LLM'lerin doğruluğunu test etmek için TruthfulQA adlı bir yöntem kullanıldı. Bu yöntem, insanların sıklıkla yanlış anladığı yaygın yanlış kanılara meydan okuyan 817 sorudan oluşuyordu ve sağlık, hukuk, finans ve politika gibi çeşitli konuları kapsıyordu.

GPT-4 gibi yeni modeller, bu testte daha iyi performans gösterdi. GPT-4, 0,59 puanla önceki GPT-2 tabanlı modele kıyasla üç kat daha iyi bir sonuç elde etti. Bu da büyük dil modellerinin giderek daha iyi eğitildiğini ve daha doğru cevaplar vermeye başladığını gösteriyor.

Ayrıca, yapay zeka tarafından oluşturulan görüntülerde de büyük ilerlemeler kaydediliyor. Örneğin, Midjourney'in Harry Potter'ın gerçekçi resmini oluşturma süreci, son iki yılda önemli bir gelişme gösterdi.

Metinden Görüntüye Modellerin Bütünsel Değerlendirmesi (HEIM) adlı bir değerlendirme yöntemiyle büyük dil modelleri, metinden görüntü oluşturma yetenekleri açısından karşılaştırıldı. Bu değerlendirmede, görüntülerin gerçek dünyada kullanımı için önemli olan 12 temel husus incelendi. Sonuçlar, hiçbir modelin tüm kriterlerde mükemmel olmadığını gösterdi. Ancak, bazı modeller belirli açılardan diğerlerinden daha başarılıydı.

Yapay zeka alanındaki bu hızlı gelişmeler, insanlar arasında bazı endişelere yol açsa da, yapay zeka ile insan arasındaki uçurum giderek kapanıyor. Bu trendin devam etmesi bekleniyor.