Jumlah aplikasi dan pentingnya antarmuka suara berkembang pesat
Teknologi

Jumlah aplikasi dan pentingnya antarmuka suara berkembang pesat

Sebuah keluarga Amerika di Portland, Oregon baru-baru ini mengetahui bahwa asisten suara Alex merekam obrolan pribadi mereka dan mengirimnya ke seorang teman. Pemilik rumah, yang dijuluki Danielle oleh media, mengatakan kepada wartawan bahwa dia "tidak akan pernah mencolokkan perangkat itu lagi karena dia tidak dapat dipercaya."

Alexa, yang disediakan oleh speaker Echo (1) dan gadget lainnya di puluhan juta rumah di AS, mulai merekam saat mendengar namanya atau "kata panggilan" diucapkan oleh pengguna. Ini berarti bahwa meskipun kata "Alexa" disebutkan dalam iklan TV, perangkat dapat mulai merekam. Itulah yang terjadi dalam kasus ini, kata Amazon, distributor perangkat keras.

"Sisa percakapan ditafsirkan oleh asisten suara sebagai perintah untuk mengirim pesan," kata perusahaan itu dalam sebuah pernyataan. "Pada titik tertentu, Alexa dengan keras bertanya: "Kepada siapa?" Kelanjutan percakapan keluarga tentang lantai kayu keras seharusnya dirasakan oleh mesin sebagai item dalam daftar kontak pelanggan.” Setidaknya itulah yang dipikirkan Amazon. Dengan demikian, terjemahan direduksi menjadi serangkaian kecelakaan.

Kecemasan, bagaimanapun, tetap ada. Karena untuk beberapa alasan, di sebuah rumah di mana kita masih merasa nyaman, kita harus memasuki semacam "mode suara", menonton apa yang kita katakan, apa yang disiarkan TV dan, tentu saja, apa speaker baru di dada ini. laci mengatakan. kita.

Namun, Terlepas dari ketidaksempurnaan teknologi dan masalah privasi, dengan meningkatnya popularitas perangkat seperti Amazon Echo, orang mulai terbiasa dengan gagasan berinteraksi dengan komputer menggunakan suara mereka..

Seperti yang dicatat Werner Vogels, CTO Amazon, selama sesi AWS re:Invent di akhir tahun 2017, teknologi sejauh ini membatasi kemampuan kita untuk berinteraksi dengan komputer. Kami mengetik kata kunci ke Google menggunakan keyboard, karena ini masih merupakan cara paling umum dan termudah untuk memasukkan informasi ke dalam mesin.

kata Vogel. -

empat besar

Saat menggunakan mesin pencari Google di telepon, kita mungkin memperhatikan tanda mikrofon dengan panggilan untuk berbicara sejak lama. Ini Google sekarang (2), yang dapat menentukan permintaan pencarian, memasukkan pesan dengan suara, dll. Dalam beberapa tahun terakhir, Google, Apple, dan Amazon telah sangat meningkat teknologi pengenalan suara. Asisten suara seperti Alexa, Siri, dan Google Assistant tidak hanya merekam suara Anda, tetapi juga memahami apa yang Anda katakan kepada mereka dan menjawab pertanyaan.

Google Now tersedia gratis untuk semua pengguna Android. Aplikasi ini dapat, misalnya, mengatur alarm, memeriksa ramalan cuaca, dan memeriksa rute di peta Google. Ekstensi percakapan Google Now menyatakan Asisten Google () – bantuan virtual kepada pengguna peralatan. Ini tersedia terutama di perangkat seluler dan rumah pintar. Tidak seperti Google Now, ini dapat berpartisipasi dalam pertukaran dua arah. Asisten memulai debutnya pada Mei 2016 sebagai bagian dari aplikasi perpesanan Google Allo, serta di speaker suara Google Home (3).

3. Beranda Google

Sistem IOS juga memiliki asisten virtual sendiri, siri, yang merupakan program yang disertakan dengan sistem operasi Apple iOS, watchOS, tvOS homepod, dan macOS. Siri memulai debutnya dengan iOS 5 dan iPhone 4s pada Oktober 2011 di konferensi Let's Talk iPhone.

Perangkat lunak ini didasarkan pada antarmuka percakapan: ia mengenali ucapan alami pengguna (dengan iOS 11 juga dimungkinkan untuk memasukkan perintah secara manual), menjawab pertanyaan dan menyelesaikan tugas. Berkat pengenalan pembelajaran mesin, asisten dari waktu ke waktu menganalisis preferensi pribadi pengguna untuk memberikan hasil dan rekomendasi yang lebih relevan. Siri memerlukan koneksi Internet yang konstan - sumber informasi utama di sini adalah Bing dan Wolfram Alpha. iOS 10 memperkenalkan dukungan untuk ekstensi pihak ketiga.

Satu lagi dari empat besar Cortana. Ini adalah asisten pribadi cerdas yang dibuat oleh Microsoft. Ini didukung pada platform Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android, dan iOS. Cortana pertama kali diperkenalkan pada Microsoft Build Developer Conference pada April 2014 di San Francisco. Nama program ini berasal dari nama karakter dari seri game Halo. Cortana tersedia dalam bahasa Inggris, Italia, Spanyol, Prancis, Jerman, Cina, dan Jepang.

Pengguna program yang telah disebutkan Alexa mereka juga harus mempertimbangkan batasan bahasa - asisten digital hanya berbicara bahasa Inggris, Jerman, Prancis, dan Jepang.

Amazon Virtual Assistant pertama kali digunakan di speaker pintar Amazon Echo dan Amazon Echo Dot yang dikembangkan oleh Amazon Lab126. Ini memungkinkan interaksi suara, pemutaran musik, pembuatan daftar tugas, pengaturan alarm, streaming podcast, pemutaran buku audio, dan cuaca real-time, lalu lintas, olahraga, dan informasi berita lainnya seperti berita (4). Alexa dapat mengontrol beberapa perangkat pintar untuk membuat sistem otomatisasi rumah. Ini juga dapat digunakan untuk berbelanja dengan nyaman di toko Amazon.

4. Untuk Apa Pengguna Menggunakan Echo (Menurut Penelitian)

Pengguna dapat meningkatkan pengalaman Alexa dengan menginstal Alexa "keterampilan" (), fitur tambahan yang dikembangkan oleh pihak ketiga, lebih sering disebut sebagai aplikasi seperti program cuaca dan audio di pengaturan lain. Sebagian besar perangkat Alexa memungkinkan Anda untuk mengaktifkan asisten virtual Anda dengan kata sandi bangun, yang disebut .

Amazon jelas mendominasi pasar speaker pintar saat ini (5). IBM, yang memperkenalkan layanan baru pada Maret 2018, mencoba masuk empat besar asisten Watson, dirancang untuk perusahaan yang ingin membuat sistem asisten virtual mereka sendiri dengan kontrol suara. Apa keuntungan dari solusi IBM? Menurut perwakilan perusahaan, pertama-tama, pada peluang yang jauh lebih besar untuk personalisasi dan perlindungan privasi.

Pertama, Watson Assistant tidak bermerek. Perusahaan dapat membuat solusi mereka sendiri di platform ini dan memberi label dengan merek mereka sendiri.

Kedua, mereka dapat melatih sistem bantuan mereka menggunakan kumpulan data mereka sendiri, yang menurut IBM membuatnya lebih mudah untuk menambahkan fitur dan perintah ke sistem itu daripada teknologi VUI (antarmuka pengguna suara) lainnya.

Ketiga, Watson Assistant tidak memberikan informasi kepada IBM tentang aktivitas pengguna - pengembang solusi di platform hanya dapat menyimpan data berharga untuk diri mereka sendiri. Sementara itu, siapa pun yang membuat perangkat, misalnya dengan Alexa, harus menyadari bahwa data berharga mereka akan berakhir di Amazon.

Watson Assistant sudah memiliki beberapa implementasi. Sistem itu digunakan, misalnya, oleh Harman, yang membuat asisten suara untuk mobil konsep Maserati (6). Di Bandara Munich, asisten IBM menggerakkan robot Pepper untuk membantu penumpang bergerak. Contoh ketiga adalah Chameleon Technologies, di mana teknologi suara digunakan dalam meteran rumah pintar.

6. Asisten Watson dalam mobil konsep Maserati

Perlu ditambahkan bahwa teknologi yang mendasari di sini juga bukan hal baru. Watson Assistant mencakup kemampuan enkripsi untuk produk IBM yang ada, Watson Conversation, dan Watson Virtual Agent, serta API untuk analisis bahasa dan obrolan.

Amazon tidak hanya menjadi pemimpin dalam teknologi suara cerdas, tetapi juga mengubahnya menjadi bisnis langsung. Namun, beberapa perusahaan telah bereksperimen dengan integrasi Echo jauh lebih awal. Sisense, sebuah perusahaan di industri BI dan analitik, memperkenalkan integrasi Echo pada Juli 2016. Pada gilirannya, startup Roxy memutuskan untuk membuat perangkat lunak dan perangkat kerasnya sendiri dengan kontrol suara untuk industri perhotelan. Awal tahun ini, Synqq memperkenalkan aplikasi pencatat yang menggunakan pemrosesan suara dan bahasa alami untuk menambahkan catatan dan entri kalender tanpa harus mengetiknya di papan ketik.

Semua usaha kecil ini memiliki ambisi yang tinggi. Namun, yang terpenting, mereka mengetahui bahwa tidak setiap pengguna ingin mentransfer data mereka ke Amazon, Google, Apple, atau Microsoft, yang merupakan pemain terpenting dalam membangun platform komunikasi suara.

Orang Amerika ingin membeli

Pada tahun 2016, pencarian suara menyumbang 20% ​​dari semua pencarian seluler Google. Orang-orang yang menggunakan teknologi ini setiap hari menyebutkan kenyamanan dan multitasking di antara manfaat terbesarnya. (misalnya, kemampuan untuk menggunakan mesin pencari saat mengemudikan mobil).

Analis Visiongain memperkirakan nilai pasar asisten digital pintar saat ini sebesar $ 1,138 miliar.Ada semakin banyak mekanisme seperti itu. Menurut Gartner, pada akhir 2018 sudah 30% dari interaksi kita dengan teknologi akan melalui percakapan dengan sistem suara.

Perusahaan riset Inggris IHS Markit memperkirakan bahwa pasar untuk asisten digital bertenaga AI akan mencapai 4 miliar perangkat pada akhir tahun ini, dan jumlah itu dapat meningkat menjadi 2020 miliar pada tahun 7.

Menurut laporan dari eMarketer dan VoiceLabs, 2017 juta orang Amerika menggunakan kontrol suara setidaknya sebulan sekali pada tahun 35,6. Ini berarti terjadi peningkatan hampir 130% dibandingkan tahun sebelumnya. Pasar asisten digital sendiri diperkirakan akan tumbuh pada 2018% di 23. Ini berarti Anda sudah akan menggunakannya. 60,5 juta orang Amerika, yang akan menghasilkan uang konkret untuk produsen mereka. RBC Capital Markets memperkirakan bahwa antarmuka Alexa akan menghasilkan pendapatan hingga $2020 miliar untuk Amazon pada tahun 10.

Cuci, panggang, bersihkan!

Antarmuka suara semakin berani memasuki pasar peralatan rumah tangga dan elektronik konsumen. Ini sudah bisa dilihat selama pameran IFA 2017 tahun lalu. Perusahaan Amerika Neato Robotics memperkenalkan, misalnya, penyedot debu robot yang terhubung ke salah satu dari beberapa platform rumah pintar, termasuk sistem Amazon Echo. Dengan berbicara dengan speaker pintar Echo, Anda dapat menginstruksikan mesin untuk membersihkan seluruh rumah Anda pada waktu tertentu di siang atau malam hari.

Produk yang diaktifkan suara lainnya dipamerkan di acara itu, mulai dari TV pintar yang dijual dengan merek Toshiba oleh perusahaan Turki Vestel hingga selimut berpemanas oleh perusahaan Jerman Beurer. Banyak dari perangkat elektronik ini juga dapat diaktifkan dari jarak jauh menggunakan smartphone.

Namun, menurut perwakilan Bosch, terlalu dini untuk mengatakan opsi asisten rumah mana yang akan menjadi dominan. Di IFA 2017, grup teknis Jerman memamerkan mesin cuci (7), oven, dan mesin kopi yang terhubung ke Echo. Bosch juga ingin agar perangkatnya kompatibel dengan platform suara Google dan Apple di masa mendatang.

7. Mesin cuci Bosch yang terhubung ke Amazon Echo

Perusahaan seperti Fujitsu, Sony dan Panasonic sedang mengembangkan solusi asisten suara berbasis AI mereka sendiri. Sharp menambahkan teknologi ini ke oven dan robot kecil yang memasuki pasar. Nippon Telegraph & Telephone mempekerjakan pembuat perangkat keras dan mainan untuk mengadaptasi sistem kecerdasan buatan yang dikendalikan suara.

Konsep lama. Apakah waktunya akhirnya tiba?

Faktanya, konsep Voice User Interface (VUI) telah ada selama beberapa dekade. Siapa pun yang menonton Star Trek atau 2001: A Space Odyssey bertahun-tahun yang lalu mungkin berharap bahwa sekitar tahun 2000 kita semua akan mengendalikan komputer dengan suara kita. Selain itu, bukan hanya penulis fiksi ilmiah yang melihat potensi antarmuka jenis ini. Pada tahun 1986, peneliti Nielsen bertanya kepada profesional TI apa yang menurut mereka akan menjadi perubahan terbesar dalam antarmuka pengguna pada tahun 2000. Mereka paling sering menunjuk pada pengembangan antarmuka suara.

Ada alasan untuk mengharapkan solusi seperti itu. Bagaimanapun juga, komunikasi verbal adalah cara paling alami bagi orang untuk bertukar pikiran secara sadar, jadi menggunakannya untuk interaksi manusia-mesin tampaknya merupakan solusi terbaik sejauh ini.

Salah satu VUI pertama, disebut kotak sepatu, dibuat pada awal 60-an oleh IBM. Itu adalah cikal bakal sistem pengenalan suara hari ini. Namun, pengembangan perangkat VUI dibatasi oleh batas daya komputasi. Mengurai dan menafsirkan ucapan manusia secara real time membutuhkan banyak usaha, dan butuh lebih dari lima puluh tahun untuk mencapai titik di mana hal itu benar-benar menjadi mungkin.

Perangkat dengan antarmuka suara mulai muncul dalam produksi massal pada pertengahan 90-an, tetapi tidak mendapatkan popularitas. Telepon pertama dengan kontrol suara (panggilan) adalah Philips Sparkdirilis pada tahun 1996. Namun, perangkat inovatif dan mudah digunakan ini tidak lepas dari keterbatasan teknologi.

Ponsel lain yang dilengkapi dengan bentuk antarmuka suara (dibuat oleh perusahaan seperti RIM, Samsung atau Motorola) secara teratur memasuki pasar, memungkinkan pengguna untuk melakukan panggilan dengan suara atau mengirim pesan teks. Semuanya, bagaimanapun, membutuhkan menghafal perintah khusus dan mengucapkannya dalam bentuk buatan yang dipaksakan, disesuaikan dengan kemampuan perangkat pada waktu itu. Ini menghasilkan sejumlah besar kesalahan, yang, pada gilirannya, menyebabkan ketidakpuasan pengguna.

Namun, kita sekarang memasuki era baru komputasi, di mana kemajuan dalam pembelajaran mesin dan kecerdasan buatan membuka potensi percakapan sebagai cara baru untuk berinteraksi dengan teknologi (8). Banyaknya perangkat yang mendukung interaksi suara menjadi faktor penting yang berdampak besar pada perkembangan VUI. Saat ini, hampir 1/3 populasi dunia sudah memiliki smartphone yang dapat digunakan untuk jenis perilaku ini. Sepertinya sebagian besar pengguna akhirnya siap untuk menyesuaikan antarmuka suara mereka.

8. Sejarah modern pengembangan antarmuka suara

Namun, sebelum kita bisa bebas berbicara dengan komputer, seperti yang dilakukan oleh karakter A Space Odyssey, kita harus mengatasi sejumlah masalah. Mesin masih belum pandai menangani nuansa linguistik. Di samping itu banyak orang masih merasa tidak nyaman memberikan perintah suara ke mesin pencari.

Statistik menunjukkan bahwa asisten suara digunakan terutama di rumah atau di antara teman dekat. Tak satu pun dari mereka yang diwawancarai mengaku menggunakan pencarian suara di tempat umum. Namun, blokade ini kemungkinan akan hilang dengan penyebaran teknologi ini.

pertanyaan yang sulit secara teknis

Masalah yang dihadapi sistem (ASR) adalah mengekstraksi data yang berguna dari sinyal suara dan mengaitkannya dengan kata tertentu yang memiliki arti tertentu bagi seseorang. Suara yang dihasilkan berbeda setiap waktu.

Variabilitas sinyal ucapan adalah sifat alaminya, berkat itu kami, misalnya, mengenali aksen atau intonasi. Setiap elemen dari sistem pengenalan suara memiliki tugas tertentu. Berdasarkan sinyal yang diproses dan parameternya, model akustik dibuat, yang dikaitkan dengan model bahasa. Sistem pengenalan dapat bekerja berdasarkan sejumlah kecil atau besar pola, yang menentukan ukuran kosakata yang digunakannya. Mereka mungkin kamus kecil dalam hal sistem yang mengenali kata atau perintah individual, dan database besar mengandung padanan himpunan bahasa dan dengan memperhatikan model bahasa (tata bahasa).

Masalah yang dihadapi oleh antarmuka suara di tempat pertama memahami ucapan dengan benar, di mana, misalnya, seluruh urutan tata bahasa sering dihilangkan, kesalahan linguistik dan fonetik, kesalahan, penghilangan, cacat bicara, homonim, pengulangan yang tidak tepat, dll. Semua sistem ACP ini harus bekerja dengan cepat dan andal. Setidaknya itulah harapan.

Sumber kesulitan juga adalah sinyal akustik selain ucapan yang dikenali yang masuk ke input sistem pengenalan, yaitu. semua jenis gangguan dan kebisingan. Dalam kasus paling sederhana, Anda membutuhkannya menyaring. Tugas ini tampaknya rutin dan mudah - lagi pula, berbagai sinyal disaring dan setiap insinyur elektronik tahu apa yang harus dilakukan dalam situasi seperti itu. Namun, ini harus dilakukan dengan sangat hati-hati dan hati-hati jika hasil pengenalan suara memenuhi harapan kita.

Pemfilteran yang saat ini digunakan memungkinkan untuk menghilangkan, bersama dengan sinyal suara, derau eksternal yang ditangkap oleh mikrofon dan properti internal dari sinyal suara itu sendiri, yang membuatnya sulit untuk dikenali. Namun, masalah teknis yang jauh lebih kompleks muncul ketika interferensi pada sinyal suara yang dianalisis adalah ... sinyal suara lain, yaitu, misalnya, diskusi keras di sekitar. Pertanyaan ini dikenal dalam literatur sebagai apa yang disebut . Ini sudah membutuhkan penggunaan metode yang kompleks, yang disebut. dekonvolusi (mengurai) sinyal.

Masalah dengan pengenalan suara tidak berakhir di situ. Perlu disadari bahwa pidato membawa banyak jenis informasi yang berbeda. Suara manusia menunjukkan jenis kelamin, usia, karakter yang berbeda dari pemilik atau keadaan kesehatannya. Ada departemen teknik biomedis yang luas yang menangani diagnosis berbagai penyakit berdasarkan fenomena akustik karakteristik yang ditemukan dalam sinyal suara.

Ada juga aplikasi di mana tujuan utama analisis akustik dari sinyal suara adalah untuk mengidentifikasi pembicara atau memverifikasi bahwa dia adalah siapa yang dia klaim (suara alih-alih kunci, kata sandi atau kode PUK). Ini bisa menjadi penting, terutama untuk teknologi bangunan pintar.

Komponen pertama dari sistem pengenalan suara adalah микрофон. Namun, sinyal yang ditangkap oleh mikrofon biasanya tidak banyak digunakan. Studi menunjukkan bahwa bentuk dan arah gelombang suara sangat bervariasi tergantung pada orangnya, kecepatan bicara, dan sebagian suasana hati lawan bicara - sementara sebagian kecil mencerminkan isi dari perintah yang diucapkan.

Oleh karena itu, sinyal harus diproses dengan benar. Akustik modern, fonetik, dan ilmu komputer bersama-sama menyediakan seperangkat alat yang kaya yang dapat digunakan untuk memproses, menganalisis, mengenali, dan memahami sinyal suara. Spektrum dinamis dari sinyal, yang disebut spektogram dinamis. Mereka cukup mudah diperoleh, dan ucapan yang disajikan dalam bentuk spektogram dinamis relatif mudah dikenali menggunakan teknik yang serupa dengan yang digunakan dalam pengenalan gambar.

Elemen ucapan yang sederhana (misalnya, perintah) dapat dikenali dengan kesamaan sederhana dari seluruh spektogram. Misalnya, kamus telepon seluler yang diaktifkan dengan suara hanya berisi beberapa puluh hingga beberapa ratus kata dan frasa, biasanya ditumpuk terlebih dahulu sehingga dapat diidentifikasi dengan mudah dan efisien. Ini cukup untuk tugas-tugas kontrol sederhana, tetapi sangat membatasi aplikasi secara keseluruhan. Sistem yang dibangun sesuai dengan skema, sebagai suatu peraturan, hanya mendukung speaker tertentu yang suaranya dilatih secara khusus. Jadi jika ada orang baru yang ingin menggunakan suaranya untuk mengontrol sistem, kemungkinan besar tidak akan diterima.

Hasil dari operasi ini disebut Spektogram 2-W, yaitu spektrum dua dimensi. Ada aktivitas lain di blok ini yang patut diperhatikan - segmentasi. Secara umum, kita berbicara tentang memecah sinyal ucapan terus menerus menjadi bagian-bagian yang dapat dikenali secara terpisah. Hanya dari diagnosis individu inilah pengakuan keseluruhan dibuat. Prosedur ini diperlukan karena tidak mungkin untuk mengidentifikasi pidato yang panjang dan kompleks sekaligus. Seluruh volume telah ditulis tentang segmen mana yang harus dibedakan dalam sinyal suara, jadi kami tidak akan memutuskan sekarang apakah segmen yang dibedakan harus fonem (setara suara), suku kata, atau mungkin alofon.

Proses pengenalan otomatis selalu mengacu pada beberapa fitur objek. Ratusan set parameter yang berbeda telah diuji untuk sinyal suara. Sinyal suara memiliki dibagi menjadi bingkai yang dikenali dan memiliki fitur yang dipilihdimana frame ini disajikan dalam proses pengenalan, kita dapat melakukan (untuk setiap frame secara terpisah) klasifikasi, yaitu menetapkan pengidentifikasi ke bingkai, yang akan mewakilinya di masa mendatang.

Tahap selanjutnya perakitan bingkai menjadi kata-kata terpisah - paling sering berdasarkan apa yang disebut. model model Markov implisit (HMM-). Kemudian muncul montase kata-kata kalimat lengkap.

Kita sekarang dapat kembali ke sistem Alexa sejenak. Contohnya menunjukkan proses multi-tahap mesin "pemahaman" seseorang - lebih tepatnya: perintah yang diberikan olehnya atau pertanyaan yang diajukan.

Memahami kata-kata, memahami makna, dan memahami maksud pengguna adalah hal yang sama sekali berbeda.

Oleh karena itu, langkah selanjutnya adalah pekerjaan modul NLP (), yang tugasnya adalah pengenalan niat pengguna, yaitu arti dari perintah/pertanyaan dalam konteks di mana itu diucapkan. Jika niatnya teridentifikasi, maka penugasan dari apa yang disebut keterampilan dan kemampuan, yaitu fitur khusus yang didukung oleh asisten pintar. Dalam hal pertanyaan tentang cuaca, sumber data cuaca dipanggil, yang masih diproses menjadi ucapan (TTS - mekanisme). Akibatnya, pengguna mendengar jawaban atas pertanyaan yang diajukan.

Suara? Seni grafis? Atau mungkin keduanya?

Sistem interaksi modern yang paling dikenal didasarkan pada perantara yang disebut antarmuka pengguna grafis (antarmuka grafis). Sayangnya, GUI bukanlah cara yang paling jelas untuk berinteraksi dengan produk digital. Ini mengharuskan pengguna terlebih dahulu mempelajari cara menggunakan antarmuka dan mengingat informasi ini dengan setiap interaksi berikutnya. Dalam banyak situasi, suara jauh lebih nyaman, karena Anda dapat berinteraksi dengan VUI hanya dengan berbicara ke perangkat. Antarmuka yang tidak memaksa pengguna untuk menghafal dan menghafal perintah atau metode interaksi tertentu menyebabkan lebih sedikit masalah.

Tentu saja, perluasan VUI tidak berarti meninggalkan antarmuka yang lebih tradisional - melainkan, antarmuka hibrida akan tersedia yang menggabungkan beberapa cara berinteraksi.

Antarmuka suara tidak cocok untuk semua tugas dalam konteks seluler. Dengan itu, kami akan memanggil teman yang mengendarai mobil, dan bahkan mengiriminya SMS, tetapi memeriksa transfer terakhir bisa jadi terlalu sulit - karena jumlah informasi yang dikirimkan ke sistem () dan dihasilkan oleh sistem (sistem). Seperti yang disarankan Rachel Hinman dalam bukunya Mobile Frontier, menggunakan VUI menjadi paling efektif saat melakukan tugas-tugas di mana jumlah informasi masukan dan keluaran kecil.

Ponsel cerdas yang terhubung ke Internet itu nyaman tetapi juga tidak nyaman (9). Setiap kali pengguna ingin membeli sesuatu atau menggunakan layanan baru, mereka harus mengunduh aplikasi lain dan membuat akun baru. Bidang untuk penggunaan dan pengembangan antarmuka suara telah dibuat di sini. Alih-alih memaksa pengguna untuk menginstal banyak aplikasi berbeda atau membuat akun terpisah untuk setiap layanan, para ahli mengatakan VUI akan mengalihkan beban tugas-tugas rumit ini ke asisten suara bertenaga AI. Akan nyaman baginya untuk melakukan aktivitas berat. Kami hanya akan memberinya perintah.

9. Antarmuka suara melalui ponsel pintar

Saat ini, lebih dari sekadar telepon dan komputer yang terhubung ke Internet. Termostat pintar, lampu, ketel, dan banyak perangkat terintegrasi IoT lainnya juga terhubung ke jaringan (10). Jadi, ada perangkat nirkabel di sekitar kita yang mengisi hidup kita, tetapi tidak semuanya cocok secara alami dengan antarmuka pengguna grafis. Menggunakan VUI akan membantu Anda dengan mudah mengintegrasikannya ke dalam lingkungan kita.

10. Antarmuka suara dengan Internet of things

Membuat antarmuka pengguna suara akan segera menjadi keterampilan desainer utama. Ini adalah masalah nyata - kebutuhan untuk menerapkan sistem suara akan mendorong Anda untuk lebih fokus pada desain proaktif, yaitu, mencoba memahami niat awal pengguna, mengantisipasi kebutuhan dan harapan mereka di setiap tahap percakapan.

Suara adalah cara yang efisien untuk memasukkan data—ini memungkinkan pengguna untuk dengan cepat mengeluarkan perintah ke sistem dengan cara mereka sendiri. Di sisi lain, layar menyediakan cara yang efisien untuk menampilkan informasi: memungkinkan sistem untuk menampilkan sejumlah besar informasi pada saat yang sama, mengurangi beban memori pengguna. Adalah logis bahwa menggabungkan mereka ke dalam satu sistem terdengar menggembirakan.

Speaker pintar seperti Amazon Echo dan Google Home tidak menawarkan tampilan visual sama sekali. Secara signifikan meningkatkan akurasi pengenalan suara pada jarak sedang, mereka memungkinkan operasi hands-free, yang pada gilirannya meningkatkan fleksibilitas dan efisiensi - mereka diinginkan bahkan untuk pengguna yang sudah memiliki smartphone dengan kontrol suara. Namun, kurangnya layar adalah batasan besar.

Hanya bunyi bip yang dapat digunakan untuk memberi tahu pengguna tentang kemungkinan perintah, dan membaca output dengan keras menjadi membosankan kecuali untuk tugas-tugas paling dasar. Menyetel pengatur waktu dengan perintah suara saat memasak itu bagus, tetapi membuat Anda bertanya berapa banyak waktu yang tersisa tidak diperlukan. Mendapatkan ramalan cuaca reguler menjadi ujian memori bagi pengguna, yang harus mendengarkan dan menyerap serangkaian fakta sepanjang minggu, daripada mengambilnya dari layar secara sekilas.

Para desainer sudah solusi hibrida, Echo Show (11), yang menambahkan layar tampilan ke speaker pintar Echo dasar. Ini sangat memperluas fungsionalitas peralatan. Namun, Echo Show masih jauh kurang mampu melakukan fungsi dasar yang telah lama tersedia di smartphone dan tablet. Itu tidak dapat (belum) menjelajahi web, menampilkan ulasan, atau menampilkan isi keranjang belanja Amazon, misalnya.

Tampilan visual secara inheren merupakan cara yang lebih efektif untuk memberikan banyak informasi kepada orang-orang daripada sekadar suara. Mendesain dengan prioritas suara dapat sangat meningkatkan interaksi suara, tetapi dalam jangka panjang, tidak menggunakan menu visual untuk kepentingan interaksi secara sewenang-wenang akan seperti berkelahi dengan satu tangan terikat di belakang. Karena kompleksitas yang menjulang dari antarmuka suara dan tampilan cerdas ujung-ke-ujung, pengembang harus secara serius mempertimbangkan pendekatan hibrida untuk antarmuka.

Peningkatan efisiensi dan kecepatan pembangkitan suara dan sistem pengenalan telah memungkinkan untuk menggunakannya dalam aplikasi dan area seperti, misalnya:

• militer (perintah suara di pesawat atau helikopter, misalnya, F16 VISTA),

• transkripsi teks otomatis (ucapan ke teks),

• sistem informasi interaktif (Prime Speech, portal suara),

• perangkat seluler (ponsel, smartphone, tablet),

• robotika (Cleverbot - sistem ASR dikombinasikan dengan kecerdasan buatan),

• otomotif (kontrol handsfree komponen mobil, seperti Blue & Me),

• aplikasi rumah (sistem rumah pintar).

Hati-hati untuk keselamatan!

Otomotif, peralatan rumah tangga, pemanas/pendingin dan sistem keamanan rumah, dan sejumlah peralatan rumah tangga mulai menggunakan antarmuka suara, seringkali berbasis AI. Pada tahap ini, data yang diperoleh dari jutaan percakapan dengan mesin dikirim ke komputasi awan. Jelas bahwa pemasar tertarik pada mereka. Dan tidak hanya mereka.

Laporan terbaru dari pakar keamanan Symantec merekomendasikan agar pengguna perintah suara tidak mengontrol fitur keamanan seperti kunci pintu, apalagi sistem keamanan rumah. Hal yang sama berlaku untuk menyimpan kata sandi atau informasi rahasia. Keamanan kecerdasan buatan dan produk pintar belum cukup dipelajari.

Ketika perangkat di seluruh rumah mendengarkan setiap kata, risiko peretasan dan penyalahgunaan sistem menjadi perhatian besar. Jika penyerang mendapatkan akses ke jaringan lokal atau alamat email yang terkait, pengaturan perangkat pintar dapat diubah atau diatur ulang ke pengaturan pabrik, yang akan menyebabkan hilangnya informasi berharga dan penghapusan riwayat pengguna.

Dengan kata lain, profesional keamanan khawatir bahwa AI dan VUI yang digerakkan oleh suara belum cukup pintar untuk melindungi kita dari potensi ancaman dan menutup mulut ketika orang asing meminta sesuatu.

Tambah komentar