Ακουστικά για να ακούμε ένα και μόνο άτομο μέσα στο πλήθος απλά κοιτώντας το

Πρωτοποριακά ακουστικά Τεχνητής Νοημοσύνης.
Open Image Modal
UW (University of Washington)

Τη δυνατότητα σε αυτόν που το φορά να ακούει ένα και μόνο άτομο σε ένα πλήθος, απλώς κοιτώντας το, δίνει σύστημα με ακουστικά και Τεχνητή Νοημοσύνη που ανέπτυξαν ερευνητές του University of Washington.

Τα «noise canceling» ακουστικά έχουν εξελιχθεί πολύ μα και πάλι υπάρχουν κάποιοι ήχοι που «διεισδύουν», ενώ επίσης ο χρήστης δεν έχει έλεγχο πάνω στο ποιον ακούει ή πότε. Σε αυτό το πλαίσιο, ομάδα ερευνητών του University of Washington ανέπτυξε ένα σύστημα Τεχνητής Νοημοσύνης (ΑΙ) που δίνει τη δυνατότητα στον χρήστη να κοιτάξει ένα άτομο για τρία έως πέντε δευτερόλεπτα ώστε να το καταγράψει. Το σύστημα αυτό, ονόματι «Target Speech Hearing», μετά ακυρώνει όλους τους άλλους ήχους στο περιβάλλον και παίζει μόνο τη φωνή του ομιλητή που κατέγραψε σε πραγματικό χρόνο, ακόμα και ενώ ο χρήστης/ ακροατής κινείται σε ένα πολύβουο περιβάλλον και δεν κοιτά τον ομιλητή.

Η ομάδα παρουσίασε τα ευρήματά της στις 14 Μαΐου στη Χονολουλού στο ACM CHI Conference on Human Factors in Computing Systems. Ο κώδικας που χρησιμοποιεί η συγκεκριμένη συσκευή είναι διαθέσιμος – αν και η ίδια η συσκευή δεν είναι διαθέσιμη στο εμπόριο (είναι proof of concept).

 

 

«Τείνουμε να σκεφτόμαστε την ΑΙ τώρα ως web-based chatbots που απαντούν σε ερωτήσεις» είπε ο Σιάμ Γκολακότα, senior author της έρευνας και καθηγητής στο Paul G. Allen School of Computer Science & Engineering. «Μα σε αυτό το project αναπτύσσουμε ΑΙ για να τροποποιήσουμε την αισθητηριακή αντίληψη οποιουδήποτε φορά ακουστικά, δεδομένων των προτιμήσεών τους. Με τις συσκευές μας μπορείς τώρα να ακούς έναν μεμονωμένο ομιλητή καθαρά, ακόμα και αν είσαι σε θορυβώδες περιβάλλον με πολλούς άλλους να μιλάνε».

Για να χρησιμοποιήσει το σύστημα, αυτός που φορά ακουστικά (διαθέσιμα στο εμπόριο) μαζί με μικρόφωνα πατά ένα κουμπί ενώ στρέφει το κεφάλι του προς αυτόν που μιλά. Τα ηχητικά κύματα μετά φτάνουν στα μικρόφωνα και στις δύο πλευρές του headset ταυτόχρονα, με περιθώριο λάθους 16 μοιρών. Τα ακουστικά στέλνουν το σήμα αυτό σε έναν ενσωματωμένο υπολογιστή, όπου το λογισμικό machine learning της ομάδας «μαθαίνει» τα ηχητικά μοτίβα του ομιλητή. Το σύστημα δεσμεύει τη φωνή του ομιλητή και συνεχίζει να την παίζει στον ακροατή, ακόμα και ενώ αυτοί κινούνται στον χώρο. Η δυνατότητα του συστήματος να εστιάζει στη φωνή που έχει καταγραφεί βελτιώνεται καθώς ο ομιλητής συνεχίζει να μιλά, παρέχοντας στο σύστημα περισσότερα εκπαιδευτικά δεδομένα.