Yapay Zeka Oyunu 2. perde: İşler Değişiyor mu

Apple WWDC konferansından sonra yapay zekanın oyuna dahil olduğunu ve erişilebilirlik için yeni ve yepyeni solukların gelecekte olduğunu söylemiştim.

Şimdi ikinci perdeyi sunmak için hazırım.

Daha önce ilk yazıyı okumadıysanız, Yapay Zeka Oyunu 1. perde: Kartlar Yeniden Karılıyor linkine sizi alalım.

Sahi, uzun olabilir; burada durdurup bir şeyler hazırlayın derim.

Nasıl olsa buradan sonra devam edeceksiniz. Apple ekosistemi içerisinde Yapay zekâ, yardımcı teknolojiler ile birleşecek haberinden sonra hemen sevindik. Sevincimiz haksız değildi aslında, bazı arayüz elementlerini Ekran okuyucu doğal olarak tanıyacak, görüntüleri ve içerisindeki metinleri hızlıca gerçekleyecekti.

Bu paragrafı okuyanlar karamsar bir tablo çizdiğimi düşünebilir ama önce 24.10.2020 itibariyle gerçek durumu bir görelim.

Yapay zekâ İOS 14 ile birlikte VoiceOver tanıma olarak hayatımıza geldi.
VoiceOver tanıma ortalama durumda 1 saniye de tepki veriyor ve yeniden tanımaya zorlandığında süre 1,5 saniye civarında tamamlanıyor, (iPhone 11 ile denenmiştir).
Henüz Türkçe olmasa da bazı nesneleri tanıyabiliyor.
Arayüz nesnelerini algılama ve doğru etiketleme konusunda halen erişilebilir olmayan bir uygulamanın yeniden yorumlanması için yeterli değil.
Diğer yapay zekâ becerileri ile birlikte çalışabiliyor; örneğin: Kamera odağında odaklanılan ve tespit edilebilen nesneler seslendirilebiliyor.
Kameranın arka alanı ve sunulanı algılama becerileri sayesinde bir şeyler yapan, işaret dili ile konuşanlar ayırt edilebiliyor. Bu beceri dudak okuma, simgesel bazlı diğer haberleşme metotlarının başarısı için de kullanılabiliyor. Beceri Kameranın arka alanı ayıklama becerisi sayesinde yapıldığı için profil olarak FaceTime başta olmak üzere tüm diğer sağlayıcıların uygulamalarında kullanılabilecek durumda.
Kulaklarınız başka bir şey ile meşgul olduğunda ya da etrafınızı duymayı engelleyen başka bir kaybınız varsa, etrafınızda çıkan bazı sesler için bildirim alabiliyorsunuz.
Sadece ayarladığınız renk filtreleme aralıkları ile değil, sizin kullandığınız renk profiline uymayan; ancak arayüz tarafında oluşturulan bir ana element varsa ayarladığınız renk aralığına sokulabiliyor.
Şu an için sizden veri istese de duyma aralığınız ve frekans genişliğiniz çözümlenerek tüm sesler duyabildiğiniz aralığa sokuluyor.

Şimdi Detaylar

Kısa maddeler halinde özetlediğimiz fonksiyonları biraz gerekçeleri ile birlikte açalım.

VoiceOver tanıma

VoiceOver tanıma, cihazdaki yapay zekâ hızlandırma motorunu da kullanarak ekran okuyucuya bazı fonksiyonlar ekler. Örneğin: görüntüyü tanıma, metni tanıma, nesneyi tanıma ve daha fazlası.

Görüntü tanıma:
Görüntü tanıma, ekranın veya vurgulanan içeriğin üzerinde görsel özelliklerin betimlenmesini sağlar. Şu aralar WhatsApp sesli mesajlarını Video oyunu olarak betimlemeye niyetli. Tanınan görsel akışı, düzeni ve arka plan ve asıl nesnenin renk becerilerini seslendirme gayretinde bulunuyor. Bu bir saniyenin altında tamamlanan bir tanıma. Edge yani son cihazda, halk tabiriyle elinizdeki cihazda tamamlanan bir işlem.
Metin tanıma:
Bu duyurulduğu günden beri nedense düzgün çalışmayan bir fonksiyon. Aslında odaklanılmış görselde metin tanıma yapması gerekir; ama diğer uygulamalar ile sayfalarca metin çıkan yerden VoiceOver tanıma maalesef tek bir harf bile çıkaramıyor. Buradaki temel sorunun, Görüntü tanıma ve metin tanıma becerilerinin birbirlerine bağlı ama bağımsız olması. Kod olarak aynı alt yapıyı kullandıklarından olsa gerek; metin tanıma yapması gereken çoğu zaman nesneyi tanıdıktan sonra, metin tanıma işlemine geçmeden süreci sonlandırıyor. Xcode üzerinde bu fonksiyonu denediğinizde, kağıt üzerinde vaat ettiğine yakın sonuç verebiliyor.
Nesne tanıma:
Apple’in zehirli elmayı sepetten çıkardığı zamanlardan bir olabilirdi. Tabii düzgün çalışsaydı. Şu aralar, bu özelliği beslemek için elimden geleni yapıyorum. Biliyorum ki bu yapay zekâ motoru benden topladığı veriler ile iyileşecek; ancak anlaşamadığımız nokta şu ki sadece nesne sınırlarını tanımakla yetiniyor. Bu olmadı ya. Beklentimiz neydi, biz beta bir sürüm kullanmak istemiyoruz. 2020’nin Ekim ayında İOS 14 cihazlarımızda kullanılabilir durumda. Elimdeki oyuncağım ise iPhone 11. Bu kombinasyon ile bakıldığında ekranda erişilebilir olmayan bir nesne, arayüz elementi vs. varsa, onları diğerlerinden ayırabiliyor. Geçenlerde Türkiye pazarında ciddi bir kullanıcı kitlesi olan E-Ticaret uygulamalarının birinde bunu test etme şansım oldu. Enteresan bir erişilebilirlik sorunu görmüştük. Bölümlenmiş bir diyagram vardı, diyagramın sınırları belliydi, örneğim bu ay, eylül, ağustos gibi; ancak bu diyagramın sınırları içerisinde gösterilen nesneler ekran okuyucu tarafından atlanıyordu. Bu ekranda Ekran tanıma olarak nitelenen nesne tanıma becerisi devreye sokulduğunda diyagramın sınırları ve içerisindeki tüm nesneler üzerinde gezinmek mümkün oluyor; ancak diyagramın etiketli olan kısımları da etiketlenmiyor. Bu benim teorim ama nesne tanıma metin tanımadan önce tamamlanıp bu süreç metin tanıma işlemine gelmeden sonlandırıyor. Neyse ki şimdi E-ticaret uygulamasında listeleme sorunu erişilebilir kontroller kullanılarak çözüldü.

Tanıma Sonuçlarının Bildirilmesi

Ana diliniz İngilizce değilse hiçbir zaman temel bir müşteri kitlesinde olmazsınız. Bu yapay zekâ ürünlerinde tam da geçerli bir şeydir. Tüm öğrenme metotları İngilizce ve İngilizce veriler ile beslendiği için ortaya çıkardığı ürünler de İngilizce oluyor haliyle. Dolayısıyla VoiceOver tanıma sonucunda çıkan sonuçlar Türkçe olmuyor. VoiceOver tanımanın tüm alanları çıktılarını İngilizce olarak veriyor. Bu da dil bariyerine çarpan bir kullanıcı deneyimi ortaya koyuyor. İngilizce’nin bir dünya dili olduğu gerçeğini yadsıyamazsın denilebilir ancak bu ürünlerin hedef kitlesi bir şeye ilgi duyanlar değil; herkes.

Peki bu sonuçlar günlük kullanıma ne kadar dahil edilebiliyor diye soracaksınız.

Esasen, kullanıcılar tarafından beklenen asıl şey, tanımaların mümkün olduğunca kısa sürede tamamlanması; ekranda makul dolaşma süresi içerisinde seslendirme sürecine dahil edilmesi. Aksi halde 2 kritik sorun ile karşılaşılıyor.

Makul süre içerisinde tamamlanmayan süreç:
Ekran okuyucu kullanıcısı, ekrandaki nesneleri taramak için klavye veya dokunmatik hareketleri ile sürekli ekranı dolaşır. Ekran düzenine hâkim olması, seçimini yapması ve bir sonraki adıma ilerlemesi; yani akışa dahil olabilmesi için sürekli hareket halinde olması ve seslendirmeleri karar hızında olması gerekir. Bu süreçteki herhangi bir kesinti; yani ekran okuyucunun tarama yapmak üzere bir sonraki öğe için beklemesi, kullanıcının bir sonraki nesnenin seslendirmesi bitmeden sonraki nesneye atlamış olmasına rağmen önceki nesnenin seslendirilmesi; seslendirme hızının karar hızının altında olması gibi etkenler kullanıcının akışa dahil olma sürecini yavaşlatır ve kesintiye uğratır.

Kullanıcının seslendirme düzeni seçimi:
Bir kontrole ait olan; ad, etiket, durum gibi niteliklerinin; nesnenin renk, arka plan gibi özelliklerinin ve üzerinde barındırdığı kısa açıklama ve diğer tanımlayıcılarının hangi sıra ile seslendirildiği kullanıcı için önemli. En mantıklısı bunlardan hangisinin seslendirileceği, hangi sıra ve hangi formatta seslendirileceğinin yapılandırılabilmesi gerekir.
Örnek: En İyi Deneyim sayfasındaki en son makaleye bir bakalım. Dijital Eşitsizliklerle Mücadele 1 – Yeni Şeyler Söylemenin Zamanı Link başlık Seviye 2
Ekran okuyucu bu makalenin linki için böyle bir seslendirme yapar. Seslendirmeyi analiz edelim “Dijital Eşitsizliklerle Mücadele 1 – Yeni Şeyler Söylemenin Zamanı” Bu Makalenin ismini; “Link” Burada tıklanabilen bir link bulunduğunu; “başlık Seviye 2” ise 2. seviyede bir başlık olduğunu belirtebilir. Kullanıcı başlık ifadesinin veya seviyesinin seslendirme sırasını seslendirilme biçimini ikinci Seviye başlık gibi; İlk önce başlığı veya link niteliğini duymak isteyebilir. Bu bilgiler aynı zamanda kullanıcıya başka bir bilgi de veriri. Başlık olduğunun söylenmesi onu bir sonraki başlığa atlama komutu ile bulabileceği, ikinci Seviye başlık olduğunun belirtilmesi o seviyedeki bir sonraki elemente ikinci seviye başlık atlama komutu ile ulaşılabilir olacağını veya link dolaşma hareketi ile de ulaşabileceği bilgisini verir.

Karıştı değil mi? Ekran okuyucular uzaktan kumandalı tren gibidir, kaldırıp bir yere koyamazsınız, kendi hattında ilerlemeli ancak bazı kestirmelerden yolu kısaltabilirsiniz.

En nihayetinde mevcut durumun ele alınışının özeti, çocuğumuz zeki ama çalışmıyor. Nesneleri tanıyabiliyor belki ama bir görme engelli kullanıcının işlerini kolaylaştıracak olgunluğa henüz sahip değil.

Sistemdeki Diğer Yapay Zekâ Becerileri ile Bütünlük

Elimizdeki mobil cihazlar 4 atlılar gibi bir dizi gelişmiş öğrenme ve çözümleme teknolojilerine sahiptir. Yapay zekâ deyip duruyorlar şuna ama daha çok sentetik zekâ. Bunu söyleyip ülkemizde yapay zekânın çevirisi sorunmuş gibi göründüğüm için özür dilerim.

Nihayetinde elimdeki cihaz iPhone 11 olsa da entegrasyon farklı ürünler ortaya olarak diğer platformlarda da var. Bu yüzden bu benim telefonumda, bu bilmem kimin web sitesinde de var diyerek okumaktan vazgeçmeyin olur mu?

Telefonlarımızın kamera uygulamaları, uygulamada sunabileceklerinden çok daha fazla özelliğe sahip olabilirler. Profesyonel amaçlı kameralardaki gibi rafine fonksiyonları yoktur. Piyasadaki binlerce sensörün farklı ve kendine has pozlama becerileri vardır. Bu kadar farklı pozlama becerisini, ışık filtrelerini bir uygulamaya koyup kullanıcının kafasını karıştırmak yerine bir dizi özellik eklenerek hatta yapay zekâ ile beslenerek, bazı şeylere makinenin karar vermesi sağlanıyor. O sensörün pozlama becerilerini tanınan nesneye göre yönlendirmek de bu örneklerden yalnızca bir tanesi. Nesneler tanındıktan sonra, sensör yüzeyinden gelen ışığın doğru konumlandırılması, sensörün görüntü verisine daha doğru odaklanması ve fotoğrafta eksik görünen yerlerin tahmin edilerek tamamlanması da bunlardan sadece birkaçı. Bizim bu tarafıyla ne işimiz var ya?

Kameraların nesneleri, nesnelerin sınırlarını ve derinlik ve yükseklik cinsinden diğer alt bilgilerine sahip olabilmesi sayesinde bu nesnelerin ekran okuyucu tarafından seslendirilmesi, ekran okuyucu ile tüketilmeye daha uygun içerikler üretilmesi gibi faydalar sağlanıyor.

Bunların en büyük faydasını güncel kamera yeteneklerine sahip cep telefonu modellerinde ve iPhone kamera uygulamasında gördüm. Odak alanında tanınan birçok nesneyi ekran okuyucunun seslendirmesi ve ilgili uygulamada metin tanımak için görüntüyü en ideal alanlara çevirmesi bunun en büyük kanıtı.

Kameradan devam ediyoruz.

Konuşanların ayırt edilmesi

Uzaktan çalışıyoruz, eğleniyoruz ve öğreniyoruz. Uzaktan toplantılar günlük hayatın hiç olmadığı kadar bir parçası olmaya başladı. Dikkat, 2000’li yılların ilk 10 yılında ve sonraki 10 yılın yarısına kadar gelen dönemdeki gibi, okuldan gelip Live Messenger’da yazışmaktan, ADSL bağlantısı ile sevgili bulmak için kamera açma fantezilerinden bahsetmiyoruz.

Asıl sorun çözmek ve bir şeyler yapmak için bir araya gelmekten bahsediyoruz. Bir araya gelmesi gerekenlerin sayısı arttıkça çeşitliliği de artar. Bu doğaldır, her kişi kendi ihtiyaçları ve gereksinimleri ile birlikte gelir. Peki konuşan kişinin sesini duyamadığınızda; dudaklarını okumanız veya yaptığı işaretleri görmeniz gerekiyorsa?

Arka planınız temiz olsa bile kameraların öndeki organik nesne yerine inorganik çizgilere sahip nesneye ulaşmaya çalışma çabası iletişiminizi keser mi?

Evet, işitme kaybı olanlar ve işitme yetisinin yerine alternatif kullanmak zorunda olanlar için organik nesnelere daha iyi odaklanabilen, profesyonel alanda kullanılan lenslerin kullanılabildiği kameraların kullanılma girişimlerini gördük. Yahu $1200 fiyatı olan kameraların WebCam olduğunu gördük daha ne diyeyim. Peki fiziksel güç yerine önerilen ne? Daha önce de bahsettiğimiz gibi, teknoloji harikası kamera sensörlerinin becerilerinin ortaya çıkartılabilmesi için kameranın gerekli hamleleri yapabilmesini sağlayan yapay zekâ unsurları kullanılır. Bu sayede arka alandaki inorganik nesneler tespit edilir ve kameranın mevcut algılama becerileri organik nesneyi ön plana çıkarmak için kullanılır. Halen birçok kamera gerçek olmayan nesneleri algılama konusunda daha başarılı olduğu için insan, organik bir nesne olarak kameranın muhteşem algılama becerilerinden faydalanamıyor.

Arka alandaki, gerçekçi olmayan aman organik de olmayan nesneler ayıklandıktan sonra, İşitme kaybı olanların sorunlarına çözüm bulunabilmiş oluyor.

Dudak okumak veya işaret dili ile iletişim kurmak gerektiğinde bu işler daha rahat başarılabiliyor. Sizin işitme aralığınızı öğrendiyse veya bunu öğrettiyseniz, kulaklığınızdan çalınan seslerin tamamı sizin duyabileceğiniz aralıklara çıkartılır. Bu sayede bazı harfleri kaçırmamanız sağlanır. Bu her durumda işe yaramaz ve gelişimi için zaman gerekir.

Ses ve Sese dayalı geliştirmeler

Şimdi iki şeyden bahsedeceğim.

Bizzat sesi kullanarak yapılabilenler ve sesin kullanılamadığı durumda yapılabilenler.

Ses kullanarak yapılabilenler: Yapay zekâ teknolojileri, sesi kullanarak konuşma tanıma, durum analizi gibi birkaç şey yaparlar. Herkesin hayatına dokunan da genelde konuşmadan metin çıkarma işlemidir. İşi cümlenin tonundan otomatik noktalama işaretine kadar götürmüş durumdalar ama İngilizce dilinde tabii. Evde İngilizce konuşularak büyütülen bir bebeğin İngilizceden başka bir dili anlamasını ve konuşmasını beklemek ayıp olur, en azından riyakârlık.
Peki bunu en çok nerde görebiliyoruz? Gene uzaktan çalışma sürecinde, konuşan kişinin konuştuklarının anlık olarak metin biçiminde ekrana yazılması en çok görebildiğimiz örnek. Bu alt yazısız filmlerin altyazı ile bezenmesine kadar gidiyor.
Ses ile ilgili kayıpların olduğu durumda yapılanlar:
Bir kişinin ses algılama becerileri kayıpsa veya anlık olarak kullanılamıyorsa, bunun için bazı destekleyici çözümler geliştiriliyor. Bunlardan en net örneği, İOS işletim sistemindeki ses tanımlama fonksiyonu olarak verebiliriz. Cihaz Hey Siri fonksiyonunun çalıştırıldığı mikrofon ile etrafı dinleyerek belirli sesleri tanıdığında uyarı erebiliyor. Kulaklık takılı olduğunda veya işitme duyunuz kayıp ise; bebek ağlaması, su akıntısı, kapı tokmağı ve zili, yangın ve duman alarmı gibi diğer uyarı sesleri gibi sesleri tanıyabiliyor. Bazen kapı gıcırtısını bebek ağlaması ile karıştırabiliyor. Bunlar aynı frekans aralığında olabilecek seslerin ayrıştırılmasından kaynaklanan sorunlar. Bu navigasyon uygulamalarındaki paralel hatların ayrıştırılamamasından kaynaklıdır.

Görsellik ve Görselliğe Dayanan Geliştirmeler

Yukarıdaki ile aynı sırada gidersek:

Görselliğin kullanıldığı teknikler:
Görsel veri kullanılması en kolay veri tipidir. Tabii Metin’den sonra. Eşleştirilebilir ve ayrıştırılabilir. Özellikle kaydedici tarafından tüm görsel veriler sağlandıysa bu iş daha kolay olur. Yardımcı teknoloji camiasında kullanımının birkaç örneği ve alt gereksinimi vardır.
1. nesne sınırlarının bilinmesi: Denetime sokulacak görsel nesnenin nerde başladığı, hangisinin ana nesne; hangisinin ayrıntısı olduğunun bilinmesi gerekir.
- Nesne havuzunun geniş olması gerekir. Yapay zekanın ilgili veri bütünlüğü ile yeterince beslenmiş olması gerekir.
- Görüntüyü kayda alan cihaz tarafından ışık bilgisi, nesne bilgisi gibi işlemeyi sağlayan ham veriler toparlandıysa bu da dönüştürmeyi kolaylaştırır.

Bunlar ise Görüntü tanıma ile erişilebilir olmayan uygulama ikonlarının ve nesnelerinin tanınmasını, görsel bir verinin metne dönüştürülmesi ve tam tersi biçimde metin olan bir verinin de işitme ve öğrenme güçlüğü çekenler için görselleştirilmesini sağlar.

Görsel algıdaki bozulmayı destekleyecek metotlar:
Görsel algı bir şekilde bozulduğunda, renk filtresi ile ara renkleri görsel kompozisyondan çıkarma; algılama biçimine göre ters renk filtresi oluşturma gibi ekstra teknolojiler vardır. Büyütme işin daha basit tarafıyken, bütün bunların bir arada kullanılması ve ortaya kullanılabilir bir verinin çıkartılabilmesi için derin öğrenme teknolojilerinin devreye girmesi gerekir. Bu noktada, sizi tanıyabilen, görebildiğiniz renk aralıklarını anlayıp orijinal renk bilgisine uygulayabilen bir yapay zekâ teknolojisi hizmetinize girdiğinde ciddi bir rahatlama olur değil mi? İşte bu da işletim sistemleri tarafından denenmektedir.

Sonuç olarak

Derinlemesine öğrenme ve veri ile beslenmiş sentetik zekâ, çok farklı ihtiyaç ihtimallerinin ve diğer ek ayrıntıların hiç olmadığı kadar hızlıca dikkate alınabilmesini sağlar. Daha kullanılabilir veri ve daha işlevsel ürünler ortaya konulmasına da yardım eder.

Etiketlenmemiş butonun gittiği sayfa başlığı ile etiketlenmesi; gittiği sayfada bulabileceği öğelerin türüne göre etiketlenmesi ve sizin daha rahat anlayabileceğiniz biçimde etiketlenmesi gibi basitten karmaşığa bir işleme tekniği ancak yapay zekâ ile mümkündür.

Burada Çokça Apple’dan bahsetsek de bu teknolojileri Windows tarafındaki yerleşik ve 3rd ekran okuyucular tarafında da görmeye başladık.

Bu sözleri söyledikten sonra da araştırma dosyasının b sayfasını tamamlamış oluyoruz. Yapay zekanın yardımcı teknoloji ile birleştiği diğer konuları da başka En İyi Deneyim İçeriklerinde incelemek üzere.

Yorumlarınızı bekleriz.