Üst Menu
Search
Generic filters

Ana Menu

Konuşmacı Etkileşimiyle Belirlenen Prozodi Çözümlemesi

 *Andrew GARDNER**Irfan ESSA
 

***Çev. Hanifi SEVER

Giriş

Konuşma, sözsüz (konuşmacı kimliği, duygusal durum ve ton) ve sözlü konuşmayı (fonem, hece ve sözcük) içeren karmaşık bir dalga formudur. Konuşmanın hem sözlü hem de sözsüz yönleri kişiler arası iletişim (bildirişme) ve insan-makine etkileşiminde gerçekten önemlidir. Yine de, konuşmanın cihazsal algılanma çalışmasında, sözlü ya da içerik kaynaklı konuşma tanımlama, konuşma sıkıştırması ve konuşma etiketlemeye odaklandık. Sözsüz bilgilerin kullanımı konuşmacı tanıma uygulamalarını sınırlandırdı. Bu alandaki araştırmaların başarılı sonuçlarının yazılmasına karşın, bu başarı temelde, konuşma dalga formundaki sözsüz  bilgilerin etkilerince sınırlandırılır. Konuşmanın ekstra dilbilimsel yönü göz önünde bulundurulduğunda değişkenliğin kaynağı teorik olarak (önemsizlikten uzak yine de sağlıklı tekniklerin belirlenmesi) uygun tekniklerin işlenmesiyle azaltılabilir.

Konuşma birliği işleminin; konuşmanın sözsüz bileşeni, işitsel olay analizleri, konuşma anlayışı ve konuşmacının psikolojik durumu ya da konuşmaya özgü tonunun saptanması için belli bir sıra sağlayan yüksek düzeyde bilgi içerdiğine geniş bir şekilde inanılır.  Böyle sözsüz konuşma teşhisi, klasik konuşma sürecinin performansını geliştirebilir ve doğal tanımlama için sağlıklı insan-bilgisayar konuşma arabirimleri açısından yararlı olacaktır. Bu çalışmada özel olarak perde periyodunun analiziyle, konuşmacı etkilerini saptamak için sistematik olarak konuşma dalga formunun sözsüz yönü nasıl analiz edilmeli problemine çözüm aradık.

Metodoloji ve Deney :

Perde istatistikleri, kısa zaman enerjisi, sözcüğün uzun dönem güç spektrumu, konuşma oranı, fonem ve susma (sessizlik) süreçleri, formant oranları ve glottal(gırtlaksal) dalga formlarının şeklinin bile konuşmacı etki sınıflaması için kullanılması uygun olan bir çok özelliktendir [3,4,5,8,9]. Çalışmalar gösterdi ki, prozodi (bürün), konuşmacının duygusal durumunun birincil göstergesidir [1,7,12]. Biz prozodiyi etki göstergesi olarak analiz etmeyi seçtik çünkü iyi tanımlanabilir ve perde periyodunun akustik korelasyonu kolayca ölçülebilir.

Prozodiyi etki için gösterge olarak kullanmak ve gerçek konuşmayla deney yapmak için, iki problemi belirlemeye ihtiyaç duyduk : 

¨Birincisi, ve muhtemelen en zoru, bir etkinin doğru bir şekilde temsilinden elde edilen bir konuşma korpusunun[1] içerdiği sözcüklerin görevi.

¨İkincisi, etki sınıflamasındaki perde periyodunun kullanılabilir özellikleri nedir? Gerçekten bir çok faktör, sözcüğün prozodik yapısını ve yalnızca onlardan biri olan konuşmacının duygusal durumunu etkiler [6,7,9]. 

Devam eden çalışmamızda amacımız, yukarıda ayrı ayrı bahsedilen iki konuyu göz önünde bulundurmaktı. İlk görev, uygun bir konuşma korpusunun gelişmesiydi. İlk denemelerimizde “bura sana bakıyor,çocuk!”, “deli misin?”, “bana mı bakıyorsun?” gibi memnuniyet, üzüntü, kızgın, bıkkın, korkmuş, şaşırmış yada doğal olarak, her tümcenin uygun olduğu 16 kişilik öğrenci grubuna ezberden sorduk. Öğrenciler, kendi sözcüklerini arzulanan etkiyi hissedene kadar söylemeye devam ettiler.

İnsan konulu proje, bu veriyle çalışıldı. Yine de, kayıt boyunca bir tek konuşmacı pek az ayırt edilebilir bir şekilde özel tümcede farklı etkiler sundu. Gerçekten bir çok konuşmacının tüm tümcelerde az ya da hiç etki vermediği görüldü. Konuşma kullanımını engellemek için doğru bir şekilde çalışma etkiyi yansıtmadı, sinemada gösterilen film ve televizyondaki hava durumu sözcüklerini alternatif kaynaklar olarak göz önünde bulundurduk. Karar verdik; günlük konuşma verisinin uygun kaynakları, aşağıdaki sebeplerin var olduğunu gösterdi : a)bir çok etki sınıfları açıkça, büyükçe olsa bile tanımlandı b) konuşma kalitesi geri plandaki gürültüyle iyiydi ve c)bir çok veri günlük konuşma göstergesinin değerinden dolayı uygundu. Programları birkaç saatliğine kaydettik ve etki sınıflarının her birinde tanımlanan sözcükler ölçüldü (16 kHz örnek oranı, 16 bit-her numune) ve depolandı.

Konuşma dalga formunda kullanılan metodun tanımlanmasından perde periyodu çıkarılır [12]. Az sağlıklı algoritmlerle ve bir çok sınırlamayla bu çok basittir. Analizimizi geliştirmek için, iki farklı perde bulucusu (dedektörü) kullanılıyor. Bunlardan biri [11]‘deki gibi kohlear korelogram (cochlear correlogram) ve diğeri PSOLA/SOLA metodudur. Bu metotlar bizim perde izlerimizi otomatikleştirerek çok sağlıklı analizleri hesapladı. Ayrıca sınıflamanın kullanılabilir olması için perde periyodunun üç anahtar özelliği tespit edildi : fonem süreç istatistikleri, susma (sessizlik) süreç istatistikleri ve perde değeri istatistikleri. İlk çalışmamızda, yalnızca perde değeri istatistiklerini, ölçmek için seçtik. Perde değerinin değişmesi ve farklı etki sınıflarının kullandığı yöntem arasında işaretsel farklılıkları gözlemleyebildik ki bu da [13]’e katılıyor.

Sonuçlar ve Gelecek Çalışma : 

Diğer basamağımız, perde istatistik özelliği vektöründeki bileşen analizleri ilkesini yayınlamaktır, bu, bizim konuşma korpusumuz için daha çok veri gerektirecektir. Gelecekteki çalışmada, fonemleri etiketlemeyi, sözcükleri, tümceleri ve sessizlikleri araştırabilmek için bunların sınıflandırma istatistiklerini ve toplanmasını planlıyoruz. Ayrıca, filtre bankası kullanılan perde periyodu için çok kararlı ayrışma metodu kullanacağız. Bunun dayandığı hipotez, etkileri iletmek için perde periyodunun temelinde yatan makroskobik bileşenlerdir [10]. Son olarak perde periyodu, zaman ve perde frekans fonksiyonu elde etmek için durak ekleyerek konuşmanın ötümsüz alanlarını kullanarak tamamlanabilir.

Bu çalışmada konuşmacının durum ve etkisinin saptanması için konuşmanın prozodisini araştırıp sunduk. Ayrıca, etki sınıfının  doğru bir şekilde temsil ettiği, elde edilen konuşma probleminin üstesinden gelmek için orijinal korpus konuşma üzerinde çalışıyoruz. Doğal  sesletilmiş sentetik konuşma, gelişmiş algılanabilir insan-bilgisayar arabirimleri ve ilerlemiş geleneksel konuşma süreci algoritmlerinin üretimini araştıran araştırmacılar, konuşmacı durum sınıflamasını kanıtlayacak ki biz de buna devam ediyoruz.

Kaynaklar : 

1. R. Collier, “A comment of the prediction of prosody,” in Talking Machines: Theories, Models, and Designs. G. Bailly, C. Benoit, and T.R. Sawallis (editors). Elsevier Science Publishers,Amsterdam: 1992.

2. W. Hess, Pitch Determination of Speech Signals: Algorithms and Devices Springer-Verlag, Berlin: 1983.

3. H. Kuwabara and Y. Sagisaka, “Acoustic characterstics of speaker individuality: Control and conversion”, Speech Communication, v. 16, pp. 165-173, 1995.

4. A. Protopapas and P. Lieberman, “Fundamental frequency of phonation and perceived emotional stress”, Journal of Acoustical Society of America, v. 101, n. 4, pp. 2267-77, 1997.

5. A. Monaghan and D. Ladd, “Manipulating synthetic intonation for speaker characterization”, ICASSP, pp. 453-456, v. 1, 1991.

6. A. Ichikawa and S. Sato, “Some prosodical characteristics in spontaneous spoken dialogue”, International Conference on Spoken Language Processing, v. 1, pp. 147-150, 1994.

7. D. Hirst, “Prediction of prosody: An overview”, in Talking Machines: Theories, Models, and Designs. G. Bailly, C. Benoit, and T.R. Sawallis (editors). Elsevier Science Publishers, Amsterdam: 1992.

8. K. Cummings and M. Clements, “Analysis of the glottal excitation of emotionally styled and stressed speech”, Journal of the Acoustical Society of America, v. 98, n. 1, pp. 88-98, 1995.

9.  D. Roy and A. Pentland, “Automatic spoken affect classification and analysis”, Proceedings of the 2nd International Conference on Automatic Face and Gesture Recognition, pp. 363-367, 1996.

10. D. Hermes, “Pitch Analysis”, in Visual Representations of Speech Signals, M. Cooker, S. Beet, and M. Crawford (editors). Wiley and Sons, New York: 1993.

11. M. Slaney and R. Lyon, “On the importance of time– a temporal representation of sound”, in Visual Representations of Speech Signals, M. Cooker, S. Beet, and M. Crawford (editors). Wiley and Sons, New York: 1993.

12.   L. Rabiner and R. Shafer, Digital Processing of Speech Signals, Wiley and Sons, New York: 1978.

13.  W. Williams, and Stevens, K. N. “Emotions and speech: Some acoustical correlates.” Journal of the Acoustical Society of America, v. 52, n. 4, pp. 1238 – 1250, 1972.

14.    J. Cahn, “Generation of Affect in Synthesized Speech”, In Proceedings of AVIOS 89, pp. 251-256, 1989.

 



* Graphics, Visualization and Usability Center Georgia Institute of  Technology    Atlanta

** Graphics, Visualization and Usability Center Georgia Institute of  Technology    Atlanta

 

*** Polis Akademisi Güvenlik Bilimleri Fak. 2. Sın Öğr. Adli Bilimler Topluluğu Adli Ses İncelemeleri

[1] konuşma korpusu (speech corpus) : bütün konuşma