Günümüzde yapay zekâ ile üretilen görselleri anlamak konusunda birçoğumuz ustalaşıyor olsa da yapay zekâ ile yapılan müzikleri anlamakta gerçekte zorlanıyoruz. Peki bunun sebebi tam olarak ne?
Sosyal medyada gezinirken karşımıza çıkan o ultra gerçekçi ama bir o kadar da tuhaf görselleri düşünün… Geçmişte daha kötü olsalar da günümüzde daha iyi seviyelere geldiler evet ama hâlâ o yapaylık hissi duruyor ve gözlerimiz o filtreyi artık geliştirmiş durumda.
Konu müziğe geldiğinde ise işler bir anda değişiyor ve dinlediğimiz o yeni, akılda kalıcı şarkının bir insan tarafından mı yoksa gelişmiş bir algoritma tarafından mı bestelendiğini anlamak neredeyse imkansız durumda. Peki gözlerimiz bunu saniyeler içinde yakalarken kulaklarımız neden bu kadar kolay kandırılıyor?
Görsel anormallik zihnimizde alarmlar çalıyor
Bu durumun en temel sebebi, beynimizin görsel ve işitsel verileri işleme biçimindeki devasa farktan kaynaklanıyor. İnsan beyni, milyonlarca yıllık evrim süreci boyunca yüzleri, vücut oranlarını ve fiziksel dünyadaki ışık gölge oyunlarını tanıma konusunda inanılmaz bir uzmanlık geliştirdi. Karşımızdaki bir insanın yüzünde milimetrik bir orantısızlık olduğunda veya bir elin duruşu doğal fizik kurallarına aykırı göründüğünde, beynimizdeki alarm zilleri anında çalıyor.
“Uncanny Valley” yani Türkçesi tam karşılığı olmasa da “Tefkinsiz Vadi” denilen bu fenomen yüzünden, gerçeğe çok yaklaşan ama tam olamayan görüntüler bize ürkütücü ve sahte geliyor. Görsel dünyada referans noktamız somut gerçeklik olduğu için en ufak hatayı affetmiyoruz.
Yapay zekâ işitsel hususları daha kolay kopyalıyor
Müzikte ise durum çok daha soyut ve matematiksel bir zemine oturuyor. Müzik, doğası gereği belirli kalıpların, ritimlerin ve frekansların tekrarına dayalı bir sanat formu olduğu için yapay zekânın bu kuralları öğrenip taklit etmesi görsel dünyaya kıyasla daha “pürüzsüz” sonuçlar veriyor.
Bir görselde altı parmaklı bir el görmek bariz bir hatayken, müzikte alışılmadık bir ritim veya farklı bir tını duymak bir hata değil, “sanatsal bir tercih” veya yeni bir tarz olarak yorumlanıyor. Müziğin hatayı tolere etme kapasitesi görselliğe göre çok daha yüksek olduğu için yapay zekânın ürettiği besteleri yadırgamıyoruz.
Cevap müziğin evriminde de gizli
İşin bir diğer boyutu da kulaklarımızın zaten uzun yıllardır “yapay” seslere aşina olmasıyla ilgili. Son otuz kırk yıldır dinlediğimiz popüler müziklerin neredeyse tamamı synthesizer’lar, davul makineleri ve ağır stüdyo efektleriyle üretiliyor. Auto-tune gibi ses düzeltme teknolojileri sayesinde insan sesinin bile ne kadarının doğal, ne kadarının dijital olduğunu ayırt edemediğimiz bir çağdayız.
Zaten elektronik ve dijital olarak üretilmiş seslere alışkın olduğumuz için yapay zekânın ürettiği bir melodiyi duyduğumuzda bunu “yapay” olarak etiketlemek yerine modern bir prodüksiyon olarak kabul ediyoruz. Yani gözlerimiz doğallığı ararken, kulaklarımız sentetik mükemmelliğe çoktan alışmış durumda.
Teknik olarak da bir tutmamak gerek
Son olarak, görsel dünyadaki karmaşıklık ile ses dünyasındaki veri akışı arasındaki teknik farkı da unutmamak gerekiyor. Bir fotoğraf karesinde milyonlarca pikselin, ışığın, dokunun ve perspektifin birbiriyle tutarlı olması gerekirken, müzik zamana yayılan doğrusal bir frekans dizisi olarak işleniyor.
Yapay zekâ, müzik teorisindeki matematiksel kuralları (hangi notanın hangisinden sonra geleceği gibi) görselliğin kaotik fizik kurallarına göre çok daha kolay ve hatasız uygulayabiliyor. Bu yüzden bugün dinlediğiniz o harika şarkının arkasında bir besteci değil, sadece çok iyi eğitilmiş bir algoritma olabilir ve belki de siz bunu muhtemelen hiçbir zaman fark etmeyeceksiniz…
