Ekran Okuyucu ve Self-voicing technology

Spread the love

Merhaba ziyaretçi! 🙂

Aslında görme engelliler için geliştirilmiş bir sistem ile, erişilebilirliği sağlayabilecek 2 yazılım türünü konuşmak üzere bu gönderiyi hazırladım. Fikirlerinizi yorumlar üzerinden gönderin ki, gerekirse tartışalım.

Ekran okuyucular

Ekran okuyucular, görme engelliler için tasarlanmış, ekrandaki nesneleri yorumlamayı ve onlar ile etkileşim kurmayı sağlayan yazılımlardır. Hareket mekanizması olarak ilk dönemlerinde sadece klavye ile hareket eden ve standart dolaşma yöntemlerinin yetersiz kaldığı yerlerde belli tuş bileşimleriyle kumanda edilebilen yazılımlarken, şu anda dokunmatik hareketler ve sanal gerçeklik yöntemleriyle daha doğal bir mekaniğe sahiptirler.

Şöyle bir dizayn kuralım.

Ekranın sağ alt tarafındaki “ileri” ve sol alt tarafındaki “geri” düğmelerini düşünelim. Orta kısımda başlık ve aşağı doğru uyumluluk listesi gösteren tablo olduğunu hayal edin.

Üst köşeler boş kaldı ama sanırım bu örneğimiz şimdilik yeterli. Böyle bir görsel üretme imkânım olsaydı daha rahat çalışabilirdik farkındayım. Ben canlandırdığınıza inanarak devam ediyorum.

Bir ekran okuyucu bunu hiyerarşik olarak sıralar ve otomatik olarak buradaki başlık, tablo ve düğme nesnelerini saptar. Bunu ekran düzenine göre satır satır dolaştıracak, ya da her bir nesne öğesini farklı satırdalarmış gibi dolaştıracak. Ekrandaki nesneler fiziksel konumlarını korurken, ekran okuyucu bunu kullanıcıya yukarıdaki 2 teorik duruma göre sunar.

Ok tuşları ile bu sunum yöntemlerini kullanmış ve nesneleri gezmiş olursunuz. Düğmelere de enter ya da boşluk ile basabilirsiniz. Daha gelişmiş yöntemleri başka bir zaman ekran okuyucuların nesneler ile imtihanı gibi bir içerikte anlatacağım.

Bu ekranımızdaki nesne, yazılım ile ulaşıldığı andan itibaren bir etiket aracılığıyla TTS kullanılarak sese çevrilir.

TTS: Önceden kaydedilmiş ses parçaları birleştirilerek, gönderilen metinden doğal bir insan sesi formunda konuşma çıktısı almayı sağlayan teknolojidir.

Dinlemeye bağlı bir hareket sistemi olduğundan; doğrudan bir etkileşim yöntemi olarak düşünülemez. İşte burada TTS’nin hızı gibi özelleştirme yetenekleri kullanılır.

Ekran okuyucu yazılımlar, belli yöntemlerle nesneleri bulan ve etkileşimini sağlayan yazılımlardır demiştik ya; Kullanıcıyla  iletişimini sağlamak için, bir tts yazılımını ya da başka yöntemleri kullanması gerekir. Aksi halde ekran okuyucu sadece dolaşır ve etiket üretir.

 

Self-voicing (kendinden seslendirme sistemi)

Uygulamanın, kendi içerisindeki nesneleri tts aracılığı ile, üzerine odaklanıldıkça ya da yönlendirme aracılığı ile seslendirmesi self voicing anlamına gelir.

Bu şekilde tasarlanan web siteleri ve uygulamalar, hatta oyunlar vardır. Skype çeviri buna benzer bir yöntemle çalışır. Birkaç örnek ve başvuru kaynağını makale sonunda vereceğim.

Burada temel olarak uygulamanın kendisinin TTS yazılımı ile seslendirme yapması düşünülebilir.

Bu tip uygulamalarla neler yapılabilir diye soruyorsanız, hemen bakalım.

Bir kitap okuma uygulaması yapabilirsiniz. Bu uygulamada metin dosyasını veya ekranda görüntülenen metni, SSML aracılığıyla  işaretleyerek tts yazılımına gönderebilirsiniz. Böylece ekrana bakmadan ya da ekran okuyucu ile ekranı dolaşmadan kitap okuma deneyimi sağlarsınız.

SSML (Speech Synthesis Markup Language): birçok tts yazılımı tarafından desteklenen, sentezlenecek metnin hangi hız ve frekans aralığında okunacağını tts yazılımına dikte etmek için kullanılan bir işaretleme dilidir. Diğer işaretleme dilleri gibi istenci yazılımın verdiği destek ile doğrudan ilişkili bir dildir. Piyasadaki birçok tts yazılımı ve istencisi ssml ile çalışır ya da ssml den gelen verileri kabul eder.

Örneklere devam edelim. Bir transmit yazılım yapabilirsiniz. Örneğin, yazışma esnasında gelen mesajların otomatik olarak belli hız ve tonla okunmasını sağlayabilirsiniz.

Canlı senaryomuz: Kullanıcıdan öncelikle bir test mesajı ile hoşnut olduğunuz hızı ve tonu bulması için seçenekler sunar, seçenekler vurgulandıktan sonra bir ssml şablonu oluşturursunuz. Göndereceğiniz tüm metinleri bu şablon içerisine yerleştirerek sentezleyebilirsiniz. Üstelik görüntülemek için kullandığınız yazılımdan metin öz niteliklerini alarak, kalın yazılmış metinleri daha kalın bir ses ile göndermek için işaretleyebilirsiniz.

Metin sentezleme genelde sıralı işlemdir ve piyasadaki birçok işlemci bu işlemi rahatlıkla oluşturur.

Elde edeceğiniz ses kalitesi, ses motorunuzun kalitesine göre değişir. Elinizdeki ses sentezleyici ses dalgalarından oluşan bir mekanik ses ya da doğal bir insan sesinin aktarımından oluşuyor olabilir. Burada ticari ve ücretsiz alternatifleriniz mevcut. Sonuçta bir yazılım ve İyisini yap, iyi para kazan politikası burada da mevcut.

Ses motoru: Sesin ssml desteği, işlemci kullanımı ve analiz yöntemlerini kontrol eden, gelen metni ses ile sentezleyen yazılımdır.

Farklı arabirimler ve teknolojiler mevcuttur. Hatta işletim sistemlerinin ve birçok yazılım paketinin kendiliğinden sentezleyici arabirimi mevcuttur.

Microsoft’un speech platform, Speech Application Program Interface (SAPI) ve One_Core_voices gibi işletim sistemlerinde kullandığı ses arabirimleri gibi diğer işletim sistemlerinin de kendi içerisinde sentezleyici arabirimi kullanılır. Bu arabirimleri destekleyen birçok sentezleyiciyle, işletim sistemlerinin developer kitleri içerisindeki kütüphaneler üzerinden metin sentezleyebilirsiniz; ya da birçok üreticinin kendi ses motorları için tasarlamış olduğu sdk’ları uygulamalarınız içerisinde kullanarak sisteme başvurmadan kendi uygulama bütünlüğünde self voicing system oluşturabilirsiniz.

 

Kaynaklar:

Örneklerimiz:

https://blogs.msdn.microsoft.com/accessibility/2017/03/15/game-chat-transcription-feature-available-today-in-halo-wars-2-for-xbox-one-and-windows-10-pcs/

http://www.voicedream.com/

Yazılım ve geliştiriciler:

http://www.nuance.com/landing-pages/playground/Vocalizer_Demo2/vocalizer_modal.html?demo=true

http://www.acapela-group.com/voices/demo/

http://www.sestek.com/tr/

http://espeak.sourceforge.net/

https://github.com/hiddentao/google-tts

Geliştirmeye yönelik başvurular:

http://enginpolat.com/csharp-speech-synthesis-konusma-sentezleyici/

https://blogs.windows.com/buildingapps/2016/05/23/using-speech-in-your-uwp-apps-from-talking-to-conversing/#slvUA3xdZpAlPIDc.97

https://www.google.com.tr/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&ved=0ahUKEwj2iYO34NLUAhXCCsAKHS-NDr8QFggmMAA&url=https%3A%2F%2Fwww.tutorialspoint.com%2Fandroid%2Fandroid_text_to_speech.htm&usg=AFQjCNE6UhusQY49IFf6QDYg8ZG0Qphu7g

https://www.appcoda.com/text-to-speech-ios-tutorial/

http://www.acapela-group.com/tag/sdk/

 

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir