DeepFake Nedir?
“DeepFake” kavramın ham tercümesi “derin sahte” gibi bir karşılık gelir. Çok şık durmakta mıdır? Bize göre şimdilik hayır - ki daha iyi bir Türkçe karşılık bulunana kadar bu yazının geri kalanında bu kavramın duyulduğu 2017’den bu yana kullanılan ifadeyi, DeepFake harf dizilimini tercih edeceğiz...
DeepFake ile işitsel ve görsel algılanabilir çoklu ortam içeriklerinin orijinal kopyalarının sentetik veri üretimi ile değiştirilmesi, orijinal içerikte olmayan verilerin üretilip çoklanarak orijinal veriyle bütünleştirilmesi sonucu gerçek olmayan, kurgu, sahte görüntü ve ses dosyalarının üretilmesi mümkündür. DeepFake genel olarak, kişinin yüz, ses, vücut ve uzuvlarının yapay zeka temelli ses ve görüntü işleme teknolojileri ile yeniden modellenerek kişinin yer aldığı, orijinal olmayan ve gerçek türevi ses ve görüntü kayıtları oluşturma temelli çoklu ortam sentetik içerik üretimi teknolojisinin bir yansıması, uygulama örnekleri olarak nitelendirilebilir.
İşin Özü: Herkes Tehlike Altında!
Çok fazla terimle her şey çorba olmaya mı başladı? Biraz daha kestirmeden ve temel bir dille şöyle diyebiliriz: DeepFake ile sizin görüntünüzün, sesinizin ve hatta tüm bedeninizin yer aldığı bir video ya da birden fazla resmi alıp, matematik ve istatistik marifetiyle geliştirilmiş algoritmalar üzerinden ve oto kodlayıcı temelli uygulamalar ile sizi bir kukla gibi kullanarak istediğimiz cümleleri söyletebilir, yüz kaslarınızı, gözleriniz, kaşlarınız, dudaklarınızı, başınızı ve vücuduzunu istediğimiz gibi hareket ettirip bunun üzerinden istediğimiz video ya da ses kaydını üretmek üzere sizin adınıza istediğimiz internet platformunda yayınlayabilir, açıklamada bulunabilir, çalıştığınız bankanın IVR sistemine talimat verebilir, müşteri temsilciniz ile görüşebilir, WhatsApp, Skype görüntülü aramaları üzerinde aileniz ve sevdiklerinizle “siz”mişiz gibi görüşebiliriz.
Bunu yapmak için sadece birkaç fotoğrafınız bile yeterli olabilir; ancak tercihen birkaç yüz fotoğraf daha da gerçekçi sonuçlar elde etmemizi sağlar. Modern çağda her şeyini internetten paylaşan insanlar düşünülecek olursa, bir kişiye ait bu sayıda fotoğraf bulmak birkaç dakikalık iştir. Bu fotoğraflar ne kadar yüksek çözünürlükte olursa ve ne kadar çok farklı açılardan çekildiyse, sizi taklit etme başarımız da o kadar yüksek olacaktır. Ancak nihayetinde sizin dijital bir kopyanızı yapay zeka algoritmaları sayesinde yaratmamız mümkün olmaktadır.
Burada bizim sizin adınıza ne söyleyeceğimiz belli olmamak üzere, internet üzerinden tüm profiliniz ve bilgileriniz saatler içinde hiç istemeyeceğiniz şekilde tüm tanıdıklarınıza ve tanımadıklarınıza yayınlanmak ve tüm kişisel verileriniz el değiştirmek üzere ertesi sabah gerçek hayatta yepyeni ve çok zor bir güne başlayabilirsiniz.
İhtiyacımız olan veri ise nispeten çok düşük ki sosyal medya hesaplarındaki fotoğraflarınız, yayınladığınız bilumum videolar (yüksek çözünürlük videolar çok daha iyi; her bir kareden çok farklı açılar ve ışıkta NNN tane görsel karenizi üretebiliriz), kaydedilen telefon konuşmaları da (4G/5G, gürültü engelleme, vb. teknolojiler eksik olmaksın, artık kristal netlikte, 256/512 Kpbs genişlikte kayıtlar elde edebilmekteyiz) gibi ses ve görüntünüzü alabileceğimiz tüm veri girdileri uygundur. Hele ki sosyal mühendislik ve oltalama ile sosyal medya hesaplarınıza erişim bilgilerinizi alabilirsek, o zaman işimiz daha da hızlı tamamlanabilir.
Durum Ne Kadar Vahim?
DeepFake uygulamalarının kötü amaçlı kullamının yaygınlaşması açısından insanlık yukarıdaki korku senaryosunda belirtildiği kadar, sade vatandaşa indirgenmiş kadar trajik bir durumda mıdır? Şu an için "hayır" diyebiliriz; fakat bunun ne kadar süreciği belirsizdir.
Öngörümüz, birkaç yıl içinde kişiselleştirilmiş, seri üretim DeepFake videoların ve takiben ses kayıtlarının üretilebileceği yönündedir - ki bu da bizi, siber güvenlik açısından hem toplumsal hem de kişisel saldırıların artık veriye yönelik değil, doğrudan toplumun bütünlüğü ve kişinin haklarına yönelik olabileceği yeni bir tehdit çağını taşıyabilir.
DeepFake ile Yüz ve Ses Manipülasyonu
Şimdi bu gelişim çizgisinden biraz daha söz ederek üç yeni kavramdan daha bahsedelim: Yüz Değiştirme (İng: "Face Swap"), Yüz Yönetimi (İng: "Face Manipulation") ve Ses Klonlama (İng: "Audio Cloning")...
DeepFake teknolojisi henüz daha çok akademik ve bilimsel literatürde, mühendislik uygulamaları ve örnek çalışmalar olarak gelişim göstermekte, günümüzdeki erken dönem "orijinal" ve "gerçek" olmayan videolar ise ilgi araştırma ekiplerinin ilgi akademik çalışmanın çıktıları olarak sosyal medya sayfalarında ve kod paylaşım sitelerinde ve akademik makale yayın sitelerinde yayınlanmaktadır. Bunun dışında, grafik animasyon profesyonelleri kendi kişisel çalışmalarını yine sosyal medya ortamlarında yayınlamakta, büyük teknoloji şirketleri bu alandaki Ar-Ge çıktılarını basın bültenlerine konu olacak şekilde duyurmaktadır. Ancak halen ortalama bir bilgisayar okur yazarlığı olan standart bir internet kullanıcısının yararlanabileceği seviyede, standart, ticarileşmiş, kolaylıklar edinilebilen ve herkesin DeepFake üretmek üzere çalışabileceği serbest dağıtılan, hazır paket programları yoktur.
Şu anki kamuya açık platformda derlenmiş exe seviyesinde paketlerine ya da kodlarına ulaşılabilen DeepFake uygulamaları ise daha çok "yüz değiştirme" olarak bilinen, kişinin yüzünün gerçekte yer almadığı bir video çekimine, ortama eklenmesi esasındaki çıktılardır. İki görüntü arasındaki renk, ışık, açı, yansıma, vb. çoklu parametrik uyumsuzluktan ötürü bu gibi uygulamalardaki görüntüler halen insan gözü ile ayırt edilebilir, yüksek çözünürlükte olamayan, bundan birkaç yıl sonraki olası çıktılara görece amatör olan ve inandırıcı olmayan, ancak eğlencelik sosyal medya paylaşımında gülücüklere konu olan veyahut müstehcen sitelerde insanların dürtülerini geçici olarak tatmin etmek üzere, kadın sinema yıldızlarının görsellerinin uygunsuz sahnelerdeki yüzlere yerleştirilmeye çalışıldığı "popüler kültür" uygulamalarıdır.
Ancak işin bir sonraki aşaması daha vahim ve tehlikeli olarak yavaştan şekillenmektedir. DeepFake uygulamalarında "yüz yönetimi/hilesi/yönlendirmesi" (İng: "Face Manipulation") tekniği sayesinde, orijinal kişinin gözleri, kaşları, dudakları dahil olmak üzere, 60 adet yüz kasının kontrol edilebilmesine yönelik çalışmalar devam etmekte, bu çalışmalarının kod blokları 2019 yılı sonunda ilgi araştırmalar çerçevesinde kamuya açık yazılım geliştirme platformlarında da paylaşılmaya başlayacaktır. Şu anki "amatör" DeepFake uygulamalarının yüz değiştirme yerine yüz yönetimi seviyesine çıkabileceği önümüzdeki birkaç yıllık süreçte DeepFake'in artık bir “şaka” değil sahtenin temelli “gerçek” olması yolunda, görsel çıktı üretiminde kaliteyi yükseltecektir.
Görüntü işlemedeki bu atılıma "ses çoğaltma" (İng: "Audio Cloning") ile "ses" sentezlemenin de eşlik etmesi gerekmektedir - ki şu ana kadarki çalışmaların olgunluğuna baktığımızda "ses" halen görece geride kalmakta ve ses sentezi daha çok İngilizcede daha iyi bir seviyede olduğunu, diğer dillerde çok geride ve temel seviye kaldığını görüyoruz. Bununla birlikte, 2020 yılı sonunda ses çoğaltma alanında da ilk araştırma sonuçları ve kod bloklarının kamuya açık yazılım geliştirme platformlarında da paylaşılmasıyla birlikte ses sorunun da İngilizce ile başlamak ve diğer dillere uyarlanmak üzere çözümlenmeye başlayacağını öngörüyoruz.
“DeepFake” ile Neler Yapılabilir?
Aslında işe kaynağından ve en temele müdahale edilmesi üzerine uğraşılıyor. Bizi “insan” yapan temel bileşenlerden "beyin" ve dış dünya algımızı sağlayan duyularımızı düşündüğümüzde günümüz dünyasında zevkle tüketilen internet kaynaklı video, fotoğraf, film gibi görsel ve işitsel bilgi bütünlerinin veri bütünlüğü ve yapısıyla oynanmak, değiştirilmek üzere görsel ve işitsel duyularımız tarafından yanlış, hatalı, eksik algılamasına, orijinalinden farklı, gerçek dışı bilginin üretilerek görsel ve işitsel olarak beynimiz tarafından gerçek/ orijinal gibi algılanmasına imkan veren bir teknoloji ve buna bağlı bir sektör geliştirilebilir. Bu sektör, toplumların gerçek dışı haberlerle panik ve huzursuzluk yaşamasından insanların kişilik haklarının ihlali ve internet ortamındaki rencidenin gerçek hayatı baltalamasına kadar, yeni nesil siber savaş uygulamalarından insan hakları ihlallerine kadar, geniş bir frekansta çıktılar ve uygulamalar üretebilir.
Çoklu ortam sentetik içerik üretimi teknolojisi temelli DeepFake uygulamaları ile neler yapılabileceğine yönelik olarak, mevcut küresel yansımalarını şu an devlet liderleri ve politikacıların hiç söylemeyecekleri cümleleri sarf ettikleri, sinema yıldızlarının yüzlerinin hiç oynamadıkları sahnelere eklendiği videolarda görebiliyoruz.
Yalan haber, uygunsuz videolar, hatalı/ eksik basın demeçleri, vb. gibi kamuya yanlış bilgilendirme ve yönlendirmelerinin getireceği toplumsal riskin büyüklüğü özellikle 2020 yılında başkanlık seçimlerine gidecek olan ABD'de Temsilciler Meclisi dahil olmak üzere, ABD kamu otoriteleri tarafından değerlendirilmekte, önleyici çözümler aranmakta ve bu kapsamda Microsoft, Amazon, Facebook gibi küresel teknoloji şirketleri tarafından DeepFake tespit araçları geliştirilmesine yönelik ödüllü yarışmalar dahi düzenlenerek çözüm geliştirmede hızlandırıcı yöntemlere gidilmektedir.
Konu sadece sivil toplum açısından değil, askeri alanda ve siber savaş olgusu olarak da kendisine yer buluyor - ki ABD askeri araştırmalar ve Ar-Ge kurumu DARPA, 2016-2017 döneminde DeepFake tespit teknolojilerinin geliştirilebilmesi için 68 milyon dolar harcadı.
DeepFake uygulamaları ile şu anki “amatör” seviyemizde dahi neler yapılabildiğini görmek için sosyal paylaşım platformlarında “DeepFake” yazıp sonuçları izlememiz yapılabileceklere dair fikir edinmek için yeterli olabilir. Gerçek hayattaki kişilerin görüntülerinden yüz bileşenlerini derlemek üzere gerçek hayatta var olmayan bir yüzün tasarlanması ve ses eklemek üzere sanki canlı bir kişi gibi video görüntüsünün kaydedilmesi mümkündür.
Gerçek bir insanın farklı açılardan ve sadece 16 adet özçekim görüntüsünü alıp yüz ifadelerini kontrol edebildiğiniz ve gerçek insan yüzünü bir kukla gibi kullanıp istediğiniz metinlerden dahi metinden sese çevrimlerle videoya kaydedilmiş açıklamalar yapmasını sağlayabilirsiniz.
Daha ileri gidip, sadece Da Vinci nin Mona Lisa tablosundaki çizimden hareketle, kişinin gözleri, dudakları ve kaşlarının hareket ettirilebildiği "yaşayan resimler" dahi üretebilirsiniz.
DeepFake ile, bir adım ötesinde neyi mi konuşabiliriz? Sadece gerçek insan yüzünün temsili benzetimi üzerinden yüz ifadeleri kontrol edilerek ve ses kopyalama ile taklit edilmesine ilaveten vücut ve uzuvlarının hareketlerinin de bir ikinci şahsın hareketlerine göre şekillendirildiği, bu sayede kişilerin fiziksel faaliyetlerinin de sanki o kişiler gerçekleştiriyormuş gibi, o kişilerin vücutlarının yer aldığı ve fakat başka kişilerin hareketlerinin uyarlandığı videolar ve resimler de üretebilirsiniz.
Gerçeğin büküldüğü ve gerçekte sanalın algıda gerçek olduğu, herkesin özgürce ve mükemmel dans ettiği videoları birbiriyle paylaştığı, ilginç bir dünyaya hoş geldiniz; daha doğrusu kapı eşiğinde duruyorsunuz. Hazırlıklı olun!
Deepfake İle Hayata Döndürülen Ünlüler
Samsung’un Moskova’daki Yapay Zeka Merkezince, tek bir yüz fotoğrafı ya da tablodan, yüksek gerçekçiliğe sahip sahte video elde etme teknolojisi geliştirildiği duyurulmuştu.
“Deepfake” teknolojisiyle Mona Lisa’nın mimikleri hareket ettirilirken araştırmacılar, Mona Lisa tablosunun yanı sıra Marilyn Monroe, Fyodor Dostoyevski ve Albert Einstein gibi ünlü isimlerin de fotoğraflarını video haline getirerek YouTube’da yayınlamıştı.
Kaynak: evrimagaci