GPT-4o testte: Öncekine göre daha hızlı ve çok yönlü ancak güvenilirliği konusunda şüpheler var

uzman

Active member
Katılım
25 Eyl 2020
Mesajlar
52,492
Puanları
36
ChatGPT'nin ilk kez halka tanıtıldığı Kasım 2022'den bu yana OpenAI, yapay zeka (AI) alanında yenilecek şirket oldu. Milyarlarca dolar harcamalarına ve kendi yapay zeka bölümlerini oluşturup yeniden yapılandırmalarına rağmen (sana bakıyorum, Google), büyük teknoloji devleri sürekli olarak yapay zeka şirketinin peşine düşmek zorunda kalıyor. Geçen ay da farklı değildi; Google'ın I/O etkinliğinden sadece bir gün önce OpenAI, Bahar Güncellemesi etkinliğini düzenledi ve önemli yükseltmelerle birlikte GPT-4o'yu tanıttı.

GPT-4o özellikleri


GPT-4o'daki “o”, OpenAI'nin en yeni amiral gemisi yapay zeka modelindeki yeni özelliklerin temel odak noktası olan çok kanallı anlamına gelir. Gerçek zamanlı duygusal konuşma oluşturma, İnternet erişimi, belirli bulut hizmetleriyle entegrasyon, bilgisayar görüşü ve daha fazlasını ekledi. Özellikler kağıt üzerinde (ve teknik demolarda) etkileyici olsa da, en büyük vurgu GPT-4o tabanlı ChatGPT'nin ücretsiz kullanıcılar da dahil olmak üzere herkesin kullanımına açık olacağının duyurulmasıydı.

Ancak iki sınırlama vardı. Ücretsiz kullanıcıların GPT-4o'ya erişimi sınırlıdır; bu, web araması yapıp bir görsel yüklerseniz yaklaşık 5-6 turluk konuşma anlamına gelir (evet, ücretsiz kullanıcılar için sınır günde bir görseldir). Ayrıca ses özelliği ücretsiz kullanıcılar için mevcut değil.

OpenAI'nin yeni AI modelini kamuoyuna tanıtmasına da gerek yoktu. Şans eseri, birkaç gün içinde şirketin en son yapay zeka eserine erişebildim ve hemen onunla oynamaya başladım. Önceki sürümle ve piyasadaki mevcut tüm ücretsiz LLM'lerle karşılaştırmalı olarak iyileştirmeyi test etmek istedim. Yapay zeka asistanıyla neredeyse iki hafta geçirdim ve bazı yönleri beni etkilese de diğerleri beni hayal kırıklığına uğrattı. Açıklamama izin ver.

GPT-4o Genel Üretken Yetenekler


Google Gemini testlerimde ChatGPT'nin üretken yeteneklerinin hayranı olmadığımı söyledim. Fazla resmi ve sıkıcı buluyorum. Pek çok şey hâlâ aynı. Anneme işten çıkarılmamı açıklayan bir mektup yazmasını istedim ve o harika cümleyle birlikte geldi: “Derin bir üzüntü ve üzüntü duyuyorum.” Ancak bunu daha konuşkan hale getirmesini istediğimde sonuç çok daha iyiydi.


GPT-4o üretken yetenekleri

Bunu, yapay zekanın yazılarında duyguları ifade etmesini gerektiren birkaç benzer komutla test ettim. Neredeyse her durumda, orijinal ipucunda bunu zaten yapmış olsam bile, duyguyu vurgulamak için başka bir ipucunu takip etmek zorunda kaldım. Karşılaştırıldığında, Gemini ve Copilot ile olan deneyimim, dili konuşkan bir şekilde tuttukları ve duyguları benim yazma tarzıma çok daha yakın bir şekilde ifade ettikleri için çok daha iyiydi.

Metin oluşturma hızı özel bir şey değildir. Çoğu AI sohbet robotu, metin çıkışında oldukça hızlıdır ve OpenAI'nin en yeni AI modeli, onları açık ara geride bırakamaz.

GPT-4o konuşma becerileri


Gelişmiş sesli sohbet özelliğine sahip olmasam da AI modelinin konuşma yeteneklerini test etmek istedim çünkü bu genellikle chatbot'un en çok gözden kaçan kısmıdır. Deneyimimin gerçek bir insanla konuşmaya benzer olmasını istedim ve sohbet robotunun daha önce bahsedilen konulara gönderme yapan belirsiz cümleleri anlayacağını umdum. Ayrıca bir insan zorlaştığında nasıl tepki vereceğini de görmek istedim.

Testlerimde GPT-4o'nun konuşma yetenekleri açısından oldukça iyi olduğunu buldum. Yapay zekanın etiğini benimle çok detaylı bir şekilde tartışabildi ve ikna edici bir argüman sunduğumda pes etti. Ayrıca üzgün olduğumu (kovulmamdan dolayı) söylediğimde de destekleyici bir şekilde karşılık verdi ve çeşitli şekillerde yardım teklif etti. GPT-4o'ya sunduğu tüm çözümlerin aptalca olduğunu söylediğimde ne ısrarla yanıt verdi ne de şaşırtıcı bir şekilde tamamen geri çekildi. Şöyle dedi: “Böyle hissettiğin için gerçekten üzgünüm. Sana biraz yer vereceğim. Konuşmaya ihtiyacın olursa ya da yardıma ihtiyacın olursa buradayım. Dikkatli ol.”

Genel olarak GPT-4o'nun konuşmalarda Copilot ve Gemini'den daha iyi olduğunu buldum. Gemini çok kısıtlayıcı hissediyor ve Yardımcı Pilot, cevaplar belirsiz hale geldiğinde sık sık başıboş konuşuyor. ChatGPT ikisini de yapmadı.

Eğer bir olumsuzluk belirtmem gerekirse o da madde işaretleri ve numaralandırmanın kullanılması olurdu. Ancak yapay zeka modeli, gerçek hayatta insanların bir metin duvarı ve hızlı bir şekilde arka arkaya gönderilen birden fazla kısa mesajı iyi biçimlendirilmiş yanıtlara tercih ettiğini anlarsa, bu yanılsamam birkaç dakikadan fazla bir süreliğine ortadan kalkabilir.

GPT-4o Bilgisayarla Görme


Görüntü İşleme, ChatGPT'nin yeni bir yeteneğidir ve bunu denemekten heyecan duydum. Temel olarak, bir görüntü yüklemenize ve bilgi almak için onu analiz etmenize olanak tanır. İlk testlerimde tanımlanacak nesnelerin resimlerini paylaştım ve harika sonuç verdi. Her durumda nesneyi tanıyabildi ve onunla ilgili bilgileri paylaşabildi.

gpt 4o ss2 GPT-4o ekran görüntüsü


GPT-4o bilgisayarla görme: teknik cihazları tanımlama

Daha sonra zorluğu artırmanın ve becerileri gerçek dünyadaki kullanım durumlarında test etmenin zamanı gelmişti. Arkadaşım gardırobunu yenilemek ve iyi bir arkadaş olmak istediğinden, renk analizi yapmak ve ona neyin yakışacağına dair önerilerde bulunmak için ChatGPT'yi kullanmaya karar verdim. Şaşırtıcı bir şekilde, uygulama sadece cilt tonunu ve kıyafetlerini (benzer renkli bir Haberin Detaylarıa karşı) analiz etmekle kalmadı, aynı zamanda kıyafet önerileriyle birlikte ayrıntılı bir analiz de sunabildi.

gpt 4o ss3 GPT-4o ekran görüntüsü


GPT-4o renk analizi

Kıyafetler önerilirken, ilgili kıyafetlere yönelik çeşitli çevrimiçi perakendecilerin bağlantıları da paylaşıldı. Ancak hayal kırıklığı yaratan bir şekilde URL'lerin hiçbiri metinle eşleşmedi.

Genel olarak, bilgisayar görüşü mükemmel ve dezavantajları hariç, belki de yeni güncellemedeki en sevdiğim özellik.

GPT-4o web aramaları


İnternet erişimi söz konusu olduğunda hem Copilot hem de Gemini, ChatGPT'nin ilerisindeydi. Ancak bu artık bitti, çünkü ChatGPT aynı zamanda internette bilgi arayabilir. Chatbot ilk testlerimde iyi performans gösterdi. IPL 2024 tablosunu görüntüledi ve yapay zekanın üç büyük babasından biri olan Geoffrey Hinton hakkında en son haber makalelerini aradı.

Planladığım röportajlar için ünlü kişileri araştırmak istediğimde bu çok yardımcı oldu. Onunla ilgili Google aramalarına rakip olacak en son haber makalelerinin tümüne hızlı ve doğru bir şekilde bakabildim. Ancak benim için bazı tehlike çanları çaldı.

Google, ünlüler de dahil olmak üzere kişiler hakkında bilgi arama özelliğini devre dışı bıraktı. Bu esas olarak kullanıcı gizliliğini korumak ve bir kişi hakkında yanlış bilgilerin paylaşılmasını önlemek için yapılır. ChatGPT'nin buna hâlâ izin vermesine şaşırarak ona cevaplayamayacağı bir dizi soru sormaya başladım. Sonuçlar beni şaşırttı.

Gösterilen bilgilerin hiçbiri kamuya açık olmayan bir kaynaktan gelmese de herkesin ünlüler ve dijital ayak izi olan kişiler hakkındaki bilgileri bu kadar kolay arayabilmesi son derece rahatsız edici. Özellikle şirketin yakın zamanda model özelliklerini yayınlarken benimsediği güçlü etik duruş göz önüne alındığında, bu hoşuma gitmiyor. Bunun gri bir alan mı yoksa son derece sorunlu mu olduğuna karar vermeyi size bırakıyorum.

GPT-4o Mantıksal düşünme


İlkbahar Güncellemesi etkinliği sırasında OpenAI, GPT-4o'nun çocukların bir öğretmen olarak sorunları çözmelerine nasıl yardımcı olabileceğinden de bahsetti. Bunu iyi bilinen bazı mantıksal akıl yürütme sorularını kullanarak test etmeye karar verdim. Genel olarak iyi performans gösterdi. Hatta GPT 3.5 için sorun teşkil eden bazı zorlu soruları bile yanıtladı.

Ancak hâlâ hatalar mevcut. Yapay zekanın durduğu ve yanlış cevap verdiği birkaç sayı serisi vakası buldum. Yapay zekanın bazı hatalar yaptığını hâlâ kabul edebilsem de, son derece kolay (ancak yapay zekayı kandırmak için tasarlanmış) bazı sorularda hâlâ başarısız olması beni gerçekten hayal kırıklığına uğrattı.

gpt 4o ss4 GPT-4o ekran görüntüsü


GPT-4o halüsinasyon örneği

“Çilek kelimesinde kaç kelime var?” diye sorulduğunda kendinden emin bir şekilde iki cevap verdi (merak ediyorsanız doğru cevap üç). Aynı sorun diğer bazı hileli sorularda da ortaya çıktı. Deneyimlerime göre, GPT-4o'nun mantıksal mantığı ve güvenilirliği selefine benziyor ve bu da hiç de iyi değil.

GPT-4o: Son Düşünceler


Genel olarak, yeni yapay zeka modelinin belirli alanlarındaki gelişmelerden oldukça etkilendim; bilgisayar görüşü ve konuşma dili favorilerim arasında. İnternet arama özelliğinden de etkilendim ama o kadar iyi ki bu konuda daha çok endişeleniyorum. Mantıksal düşünme ve üretken beceriler söz konusu olduğunda çok az gelişme oluyor.

Benim düşünceme göre, premium erişiminiz varsa, GPT-4o genel performans açısından muhtemelen diğer rakiplerden daha iyidir. Ancak geliştirilecek çok yer var ve kimse yapay zekaya körü körüne güvenemez.
 
Üst