Montaj

Ses kayıtlarının montaj olup olmadığı nasıl anlaşılır? Öncelikle İnternet üzerinden indirilen ses kayıtları için, orijinal ham hali olmadıkça kesin ve net olarak montajdır veya değildir ifadesi kullanmanın doğru olmayacağını, incelemelerin uzman kişilerce ve doğru ekipmanla, hukuki delil niteliği de araştırılarak ve çok sayıda analiz yöntemi uygulandıktan sonra gerçekleştirilmesi gerektiğini hatırlatayım ve montaj konusunda çok merak edilen soruları cevaplayayım.

Ses kayıtlarını kim inceler?
Ses kayıtlarını, dünya genelinde konusunda uzman ses mühendisleri, profesyonel dilbilimciler ve adli ses uzmanları, Türkiye’deki adli vakalarda ise genellikle Polis ve Jandarma bünyesinde yer alan Kriminal Labaratuarlardaki Ses ve Konuşma Uzmanları tarafından incelenir.

Ses kayıtları neden incelenir?
Cezai soruşturmaları açıklığa kavuşturmak için, özellikle sahtekarlık, dolandırıcılık, tehdit, şantaj veya iftira davalarında ayrıca bazı kaza durumlarında, 155-156 polis-jandarma imdat aramalarında kısaca ses kayıt edilebilen her yerde, genellikle delil olarak kullanılmak üzere incelenir. Uzmanlar olayın durumuna göre; sesin kime veya neye ait olduğu, aslına uygunluğunu (montaj olup olmadığı), konuşan kişinin kişisel özellikleri gibi konularda görüş belirtirler. Bunun yanında, sesin daha anlaşılır hale getirilmesi, gürültü ve konuşma dışı seslerin giderilmesi, silinen kısımların kurtarılması gibi alanlarda birtakım özel yazılım ve donanım kullanarak çalışırlar.

Dijital Kayıtlarda Montaj Nasıl Anlaşılır?
Halk arasında montaj olarak bilinen şey aslında ses kaydının orijinal olup olmadığının, bilerek veya kazara manipülasyona uğrayıp uğramadığının araştırılmasıdır. En iyi ve doğru sonucu almak için farklı birçok teknik, dijital sinyal işleme, sinyal örnekleme, özel yazılım ve donanım birlikte kullanılır. Bunların dışında, ses kaydı dosyasının biçimi, hangi cihazla kayıt edildiği, cihazın akustik özellikleri, bant genişliği, yankı ve kayıt anındaki mekanın büyüklüğü gibi faktörler değerlendirilerek uzman dilbilimcilerden görüş alınır.

Arka Plan Sesinin Analizi
Konuşmalardan ziyade arka plandan gelen seslerin ve gürültünün analizi ile kaydın orijinalliği anlaşılabilmektedir. İngilizce “noise floor” olarak bilinen ve kayıt sırasında devamlı, sabit ve tutarlı olması gereken, yükseltildikten sonra uğultu şeklinde duyulabilecek bu elektronik veya doğal sesler incelenerek kayıttaki anomaliler tespit edilir. Arka planda duyulan rüzgar, müzik, TV, radyo veya üçüncü şahıslara ait sesler bu analiz kapsamında incelenir.


Görsel Analiz
Bilgisayar ortamında ses dalga ve frekanslarının grafik forma çevrilerek ölçülmesi ve incelenmesidir.  Ses dalgaları spektogramda çok yakından incelendiğinde sürekli ve düzgündür. Kısa sürede ve kesik olarak kayıt edilen yüksek sesler dahi düzgün ve sürekli bir dalga oluşturur. Ses dalgasındaki ani kesiklikler manipülasyonun işareti olarak değerlendirilir.

Ses İnceleme Yazılımları
Ses perdesi analizi, geçici dalga analizi, boşluk analizi gibi bilgisayarda uygun yazılım kullanarak yapılan birçok karmaşık analizden oluşur. Diğer analiz yöntemleri ile birlikte kullanılır.

Konu Bütünlüğündeki Tutarlılık
Uzmanlık gerektirmeyen fakat teknik bulgularla desteklenmesi gereken bu analizde konunun bütünlüğü, şüpheli ile ilgisi, suç unsuru içeren bölümlerin tüm kayıt veya diğer ses kayıtları ile karşılaştırılması gibi mantıksal çalışmalardır.

Fonetik ve Ses Biyometrisi
Sesin kime ait olduğunun ve ne söylendiğinin anlaşılmasında kullanılan yöntemlerdir. Diğer bir tanımla, insan sesinin yapısal özelliğini (idyosenkrazi) inceleyen fonetik ve dil uzmanlarının yaptığı analizdir. Örneğin F0, F1, F2 ve F3 analizi olarak bilinen yöntemde kişiden kişiye değişen ses yolu formant frekansları analiz edilerek konuşan kişinin yaş grubu, cinsiyeti ve boyu hakkında bilgi verir. Ses biyometrisinde ise, ses sahibinin kimliğinin arandığı durumlarda –tıpkı parmakizinde olduğu gibi- sesi daha önceden bilinen kişilerden oluşan bir veritabanında aranıp bulunmasıdır. İtalya gibi bazı ülkelerde sabıkalılara ait geniş bir ses veritabanı oluşturmuştur, böylece bazı durumlarda tehdit telefonlarındaki sesi bu veritabanı ile karşılaştırıp şüphelinin kimliği tespit edilebilmektedir. Ayrıca akustik fonetik inceleme yönteminde, ses en az 150 ms’lik daha küçük segmentlere ayrılıt ve o sese ait frekans tutarlığını anlatılır.

Adli konuşmacı tanıma ve konuşmacı profilleri
Ses kaydındaki bilinmeyen bir sesin, bir veya daha fazla sesle tanımlanması ya da elenmesi amacı ile işitsel ve görsel olarak karşılaştırılmasıdır. Bu analizde sesler, kendi başına sahip olduğu karakteristik özellikler (vurgu, ton, ezgi, yöresel ağız, psikolojik kaynaklı anlık konuşma veya arkitülasyon bozuklukları vb), perde periyodu ve genlik analizi yardımıyla işitsel ve görsel analiz teknikleri uygulanarak analiz edilir. Bu yöntem dilin ve sesin birçok açıdan incelenmesini ve kişiye özgü dil ve ses özelliklerinin belirlenmesini amaçlar. Özellikle 155-156’ya yapılan ve tek bir konuşmacının yer aldığı ihbar kayıtlarında kullanılır. Konuşmacının söyleyiş özellikleri, ses ve konuşma kalitesi, ses tınısı ve rengi, konuşma bozuklukları gibi unsurlar incelenir ve ayırt edici özellikleri başta olmak üzere, tüm söyleyiş özellikleri, ruhsal durumu, eğitim seviyesi, dili edindiği çevre ve benzer öngörüler listelenir. Masum veya suçlu bütün şüphelilerin karşılaştırma amaçlı ses kayıtları alınırken veya sorgulamalar esnasında gergin oldukları ve bu durumun ses akustiğine doğrudan etki ettiği bilinmektedir. Bu nedenle, konuşmacı profili belirlenirken, dil ile kişinin ruh durumu arasındaki bağlantıyı ve sapmalarla ilgilenen ruhdilbilimsel inceleme de yapılabilir.

Paralinguistik Analiz
Yalnızca sesli video incelemelerinde kullanılabilen, ses anlatımına katkıda bulunan ve sözel olmayan her çeşit duruş, tavır, vücut dili, işaretler ve davranışların incelendiği analizlerdir. Örneğin yalan söyleme eğilimi olan konuşmacı diğerlerine oranla beden konumunu daha çok değiştirdiği ve göz temasından kaçındığı bilinmektedir.

Şebeke Frekans Analizi
Ses kaydının arka planındaki frekans değişiklikleri ile ses kaydının ne zaman yaratıldığını ve değişikliğe uğrayıp uğramadığının tespitine yarayan yeni bir yöntemdir. Bir ses kaydı başka bir ortamda değiştirildiğinde insan kulağının duyamayacağı arka plan gürültüsünde ani değişiklikler olur. Örneğin, arka plan gürültüsünü oluşturan seslerden biri elektrik akımının oluşturduğu 50-60 Hertz’lik sestir. Bu frekanslar, örneğin İngiltere’de polis ve elektrik şirketleri tarafından bir veritabanında günün her anında sürekli olarak kaydedilmekte ve gerektiğinde ilgili ses kaydı frekansı ile karşılaştırılıp orijinalliği, hatta sesin hangi gün ve nerede kayıt edildiği anlaşılabilmektedir. Bu yöntem ülkemizde uygulanmamaktadır.

Diğer Verilerin Kullanımı
Ses kaydı haricindeki diğer verinin olaya uygun bir şekilde kullanımıdır. Örneğin cep telefonu kayıtlarında yer tespiti yapılıp arka plandaki ses ile ve konuşmada geçen bilgiyle uygunluğu karşılaştırılır, dijital ses kayıtlarında dosyaların üstveri (metadata) bilgilerine bakılır veya video görüntüsünde ağız hareketlerinin senkronizasyonu değerlendirilir. Analizin tam olarak yapılabilmesi için, ses uzmanlarının haricinde dilbilimciler şive, kelime vurguları ve nefes alıp verme gibi ses özelliklerini de değerlendirip modeller ve kayıt hakkında görüş bildirirler. Tüm incelemeler uluslar arası mahkemelerce kabul edilmiş lisanslı yazılım, kalibrasyonu yapılıp test edilmiş donanım, profesyonel hoparlör ve kulaklıklar ile sessiz bir ortamda konunun uzmanı kişilerce gerçekleştirilmelidir.

Montaj mı değil mi?
Ülkemizde tanımlanmış bir standart olmamasına rağmen uluslararası standartlar (ABRE, IAI) gereğince, incelenen ses kayıtları üzerinde montaj olup olmadığına dair bir kanaate varılabilmesi için tüm analizler yapıldıktan sonra belli kriterler belirlenmiştir. Örneğin, eğer incelenen ses kayıtlarında karşılaştırılabilir sözcüklerden en az %90’ı birbirine benzer ve bu benzerlerin içinde en az 20 sözcüğün aynı, ayrıca her sözcüğün üç ya da daha fazla formantının olması durumunda ses kaydı orijinal ve/veya montajlanmamış (authentic) kanaatine varılabilir. Ses uzmanından elindeki veri ve yaptığı analiz sonuçlarına göre ses kaydının; özgün/gerçek, kuvvetle muhtemel, muhtemel, karar verememe, muhtemel eleme, kuvvetle muhtemel eleme ve eleme tanımlamalarından biri ile kanaate varması beklenir.

Sıfırdan insan sesi oluşturulabilir mi?
İnsan sesi, akciğerlerden gelen hava basıncı ile ses telleri, boğaz, dil ve ağız yapısı kullanılarak oluşan, tıpkı parmak izi gibi kişiye özel bir yapıdır. Bir insana ait ses sıfırdan oluşturulamaz, bu konuda yapılan bilimsel araştırmalar tek yumurta ikizlerine ait seslerde dahi büyük farklılıklar olduğunu ispatlamıştır.

Sesleri hece hece birleştirip montajlamak mümkün mü?
Net olarak kayıt edilmiş, tane tane konuşulan kayıtlarda uygun yazılım kullanarak, spektrum üzerindeki ses dalgalarının kesilip başka alanlara yapıştırılması ile hece hece montajlama teorik olarak mümkün görünse de, kelimelerdeki hece vurgulamalarını, ses bağlarını ve akıcılığı eşleştirmek günümüzün bilinen teknolojileri ile Türkçe dilinde imkansızdır, ses kaydı kelime kelime birleştirilse dahi ortaya çıkan sonucun montaj olduğu sıradan insanlar tarafından dahi anlaşılır olacaktır. Arka planda üçüncü şahısların da konuştuğu, aynı anda konuşmaların bulunduğu, nefes alıp verme, gülüşmeler, uğultular gibi dış ortam seslerinin duyulduğu ve farklı şahısların aynı anda konuştukları ses kayıtlarını duygu ve tonlama bütünlüğü oluşturacak şekilde hece hece düzenlemek imkansızdır.

Bir örnek vermek gerekirse bilgisayar, hile ve cilalı kelimelerindeki hecelerden ‘sahici’ kelimesi üretildiğinde vurgu ve kelimenin normal akışı değişecek, kelime ve cümle sayısı arttıkça bütünlük gittikçe kaybolacak ve montaj çok bariz şekilde anlaşılacaktır.

Bununla birlikte son yıllarda yapay zeka teknolojisinin gelişmesi ile birlikte bazı sistemler (Örn. Google Tacotron 2) yeterli miktarda örnek ses yardımı ile İngilizce dilinde orijinalinden ayırt edilemeyecek düzeyde insan sesi kopyalayabilmektedir. Türkçe dilinde ise henüz yazıdan sese sentezleme yapabilen fakat insan kulağı ile dahi bilgisayardan üretildiği kolayca ayırt edilebilen uygulamalar geliştirilebilmiştir. (Deneyin)

Sonuç olarak, bir ses kaydının montaj olup olmadığının belirlenmesi, karşılaştırma yapabilecek kadar ses örneği temin edildikten sonra, konuya hakim teknik uzman ve dilbilimciler ile dilbiliminin alt dallarından da yararlanarak yapılacak kapsamlı bir incelemeyi gerektirmektedir.

Kaynaklar:
-Bayram, L. (2008) Ses Görüntü ve Data İncelemeleri, Adalet Yayınevi, Ankara
-Hollien, H (2002) Forensic Voice Examinations, Academic Press, San Diego
-Rose, P (2002) Forensic Speaker Identification. Taylor & Francis, New York
-Howard, D.M., and Murphy, D.T.M. (2009). Voice science acoustics and recording, Plural Press, San Diego
https://qz.com/1165775/googles-voice-generating-ai-is-now-indistinguishable-from-humans/