Google asistan demosuna yeniden bakalım

Google Asistanın telefonla konuştuğu o videoyu izlediniz mi? Yada yeni demolara baktınız mı?
O videonun satır aralarına bakmaya karar verdim ve yakaladığım şeyler ilginçti.
Dilerseniz, öncelikle videoyu izleyin ve yapılan 2 demoyu beraber gözden geçirelim.

[embedyt] https://www.youtube.com/watch?v=D5VN56jQMWM[/embedyt]

Yakaladığımız 2 şey var. Öncelikli olarak sohbet tarzı asistan modu, sonra ise gerçekçi sesler ve tepkiler.

Google asistan ondan talepte bulunduğunuzda, sohbetin devamlılığı için önceki sorduklarınızla bağlantılı hareket ediyor. Genel itibariyle, “Maçın sonucu ne” diye sorarsanız, asistanların tamamı buna bir şekilde cevap verir. Aynı asistan “golleri kim attı” sorusuna cevap veremez; ya da “hangi maç?” diye size geri döner. Sizin sorduğunuz önceki soru gözetilmeden tepki verilmiştir.

Devamında takviminizin Google asistan tarafından bilinmesi ve bu denli akıllı algoritmalar geliştirildiğine göre artık sizden soru bekleyen bir asistan yerine, hocam “Salıya 3 kişilik boş yerin var mı” diye sorması da gayet normal.

Ya arkadaş bunlar soru sormayı ne zaman öğrendi?

Aslında durun. Yukarıda yazdığım şey ısınmak içindi. Asıl bomba bu değildi. Zaten Derin Öğrenme teknolojisinin ve çok fazla verinin doğru ve hızlı işlenmesi durumunda bunların olması gayet normaldi. Gelin asıl teknolojiye bakalım. Demolarda fark ettiyseniz, Google 6 gerçekçi ses üretmiş ve bunlardan ikisi orada kullanıldı. Asıl ilk baştaki sese odaklanın. Başarılan çok ilginç bir şey göreceksiniz. Doğru çalışan ince sesli bir yapay konuşma üreteci.

Yapay konuşma üreticiler, 90’lı yıllardan beri yazılımsal olarak çalıştırılmaktadır. Öncelikli olarak ses dalgalarını evire çevire, sonra ’da daha gelişmiş algoritmalar ile ses havuzu teknolojisi kullanıldı. Gerçekçi bir konuşma elde etmek çok önemli bir öncelik değildi. Bu ihtiyaç ortaya çıktığında ise, çözüm sesi incelterek bulundu. Tonlu bir kayıt alamazsınız, çünkü son kullanıcı cihazlarındaki paralel güç 90’lı yıllarda bunu yönetebilecek ve hızlı sonuç verecek kadar güçlü değildir. Tonlu seslerin de kaydedildiği Yapay konuşma üreticiler yapıldı. Bu da 1 GB’ye yakın dosyaların olduğu TTS’ler ortaya çıkardı. Üstelik tonlar bazen doğru birleştirilemiyordu. Ek olarak, teknoloji aslen İngilizce dilinin temelleri üzerine dayandığı için İskandinav dilleri dışında çok doğru çalışmadı. En azından İskandinav dillerinde çalıştığı kadar düzgün çalışmadı.

Gene de yapılabileceklerin sayısı fazlaydı ve dahası gerekiyordu. Özellikle sesli asistanlar geliştirildiğinde Yapay konuşma üreticiler yetersizlik göstermeye başladı. Bu satırdan sonra yazacaklarıma dikkat edin. Burdan sonrası kendi yorumlarım. Mevcut teknolojinin sınırlarından hareketle yeni teknolojiyi anlamaya çalışacağız. Bazı yazdıklarım tamamen hatalı olabilir.

Önceden gerçek bir konuşmanın üretilebilmesi için tonlu kayıtların da alınması gerektiğinin farkındayız. Bu tonlu kayıtları işlemek data büyüdükçe 90’lı yılların teknolojisi ile mümkün değildir. Üstelik işlemci teknolojisi o günden bu günlere çağ atladı ama; TTS teknolojisi güncel çekirdek yapılarından faydalanmıyor. Bu yüzden bir yenilik gerekiyordu.

Datayı küçük tutacaksanız, ton değişiklikleri ile konuşmayı yönetebilirsiniz; ama bu tüm olasılıkların kodlanması gerekliliğini ortaya çıkarır ve kodlanmamış kısımlar, o sesin en iğrenç kısımları ile okunur. Buna bir çözüm gerekir.

İstediğiniz kadar ince ses kaydedemezsiniz; çünkü ince bir ses kaydederseniz, katmanlama teknolojisi bunu bozar ve sesin yönetilebilirliği düşer. Üstelik kaydedilen ince insan seslerindeki boşlukları yakalamak o kadar kolay değildir. Sonuçta elde ettiğiniz ses to değiştirildiğinde cırlar, hızlandırıldığında çatlar, yanlış birleştirildiğinde ise rahatsız eder. Buna bir çözüm gerekir.

Sevimli bir tonda konuşacak asistanınız, tonlama ile istediğiniz hale gelir; ama İskandinav dilleri dışında işler istediğiniz kadar iyi gitmez. Özellikle Türkçe bu sabit kalıplar üzerinden ilerleyen işleri çok fazla bozar. Buna bir çözüm gerekiyordu.

Gel hocam Google’a.

Öncelikle Güncel işlemci tekniklerini kullanmayan TTS yapısı, yapay zekanın dayandığı paralel işlem teknolojisinin üstüne oturtuldu. Böylece istenen iş, terabaytların leblebi çekirdek olduğu veri sisteminin üzerinde görülmeye başladı.

Kodlama gerekliliği son zamanlarda, kendi kendine öğrenen makine öğrenimi teknolojisi sayesinde zaten ortadan kaldırıldı. Kendinden bekleneni bilen yazılım gerekli teknik alt yapıyı geliştirerek, sonucu her seferinde daha iyi hale getiriyor. Bu sayede mevcut ses kaydının doğru noktaları ve tonları, paralel işlem ve derin öğrenme sistemi sayesinde algılanıp, taranıp, analiz edilip yeniden kullanılabiliyor. Yapay bir tonlama tekniği artık gereksiz.

Son olarak doğru ortamda sesi kaydettiyseniz, sesin frekans yapısı o kadar önemli değildir. Yapmak istediğiniz iş, mevcut teknoloji sayesinde çok daha küçük ayrıntılara bakılarak yapılacağı için sonucun doğru olması sağlanabiliyor. Ses ince olduğu için frekans boşluklarının bulunamaması sorunu, makine öğrenimi ile artık yoktur. Derin öğrenme teknolojisi, o sesi artık çok iyi tanır, nerde susulduğuna ve bu sesin ton sınırlarına daha hakimdir. Üretilmek istenen konuşma ise bu algılama teknolojisinin sayesinde daha doğru elde edilir. Doğru tonları ve ses parçalarını, Kalın bir ses ’ten hareket etmeden istediğiniz ses üzerinden bulabilir ve sentezleyebilirsiniz.

Hazır olun, TTS teknolojisine yapay zeka el attı. Bu kullanıldığında neler yapılabileceğini tahmin edebiliyor musunuz? Türkçe seslerinin daha kaliteli olması gerektiği hususundaki isteğimi Kim yerine getirecek acaba?

Bir cevap yazın Cevabı iptal et