Η μεγαλύτερη δισκογραφική της K-pop σπάει το φράγμα της γλώσσας χάρη στην Τεχνητή Νοημοσύνη

Η ΑΙ επέτρεψε στη HYBE να κυκλοφορήσει ένα κομμάτι του τραγουδιστή MIDNATT σε έξι διαφορετικές γλώσσες ταυτόχρονα.
Open Image Modal
Ο πρόεδρος της HYBE IM μιλάει κατά τη διάρκεια συνέντευξης στο Reuters σε γραφείο της εταιρείας στη Σεούλ της Νότιας Κορέας, 22 Ιουνίου 2023.
KIM HONG-JI via Reuters

Οι παραγωγοί της μεγαλύτερης δισκογραφικής εταιρείας της K-pop που ανέδειξαν το boy group-φαινόμενο BTS, χρησιμοποιούν την τεχνητή νοημοσύνη για να συνδυάσουν τη φωνή ενός νοτιοκορεάτη τραγουδιστή με τη φωνή φυσικών ομιλητών πέντε άλλων γλωσσών, ώστε να διαδώσει την εν λόγω κορεατική μουσική περαιτέρω στον υπόλοιπο κόσμο.

Η τεχνολογία επέτρεψε στην HYBE, τη μεγαλύτερη μουσική εταιρεία της Νότιας Κορέας, να κυκλοφορήσει ταυτόχρονα τον Μάιο ένα κομμάτι του τραγουδιστή MIDNATT σε έξι  διαφορετικές γλώσσες - κορεατικά, αγγλικά, ισπανικά, κινέζικα, ιαπωνικά και βιετναμέζικα.

Ορισμένοι τραγουδιστές της K-pop έχουν κυκλοφορήσει τραγούδια στα αγγλικά και τα ιαπωνικά εκτός από τη μητρική τους γλώσσα, αλλά η εφαρμογή της νέας τεχνολογίας για ταυτόχρονη κυκλοφορία σε έξι γλώσσες αποτελεί παγκόσμια πρωτοτυπία, σύμφωνα με την HYBE, και θα μπορούσε να ανοίξει το δρόμο για τη χρήση της κι από άλλα δημοφιλή συγκροτήματα.

«Θα ακούσουμε πρώτα τις αντιδράσεις των οπαδών, και μετά θα αποφασίσουμε ποια θα είναι τα επόμενα βήματά μας», δήλωσε ο Τσανγκ Γουγιόνκ, επικεφαλής του κλάδου διαδραστικών μέσων της HYBE σε συνέντευξη που παραχώρησε στο Reuters από το στούντιο της εταιρείας.

Πως λειτουργεί η διαδικασία

Ο 40χρονος Λι Γιοόυν, γνωστός ως MIDNATT, ο οποίος μιλάει λιγοστά αγγλικά και κινέζικα εκτός από τα κορεάτικα, ηχογράφησε το τραγούδι «Masquerade» σε κάθε μία από τις έξι γλώσσες.

Οι φυσικοί ομιλητές διάβασαν τους στίχους και αργότερα τα δύο συνδυάστηκαν απρόσκοπτα με τη βοήθεια της εσωτερικής μουσικής τεχνολογίας AI της HYBE, εξήγησε ο Τσανγκ.

«Χωρίσαμε ένα κομμάτι σε διαφορετικά συστατικά - προφορά, ηχόχρωμα, τόνο και ένταση», δήλωσε ο Τσανγκ. «Εξετάσαμε την προφορά που σχετίζεται με την κίνηση της γλώσσας και χρησιμοποιήσαμε τη φαντασία μας για να δούμε τι είδους αποτέλεσμα θα μπορούσαμε να φτιάξουμε χρησιμοποιώντας την τεχνολογία».

Σε μια σύγκριση του τραγουδιού πριν και μετά που παρουσιάστηκε στο Reuters, ένας επιμηκυμένος φθόγγος προστέθηκε στη λέξη “twisted” στους αγγλικούς στίχους, για παράδειγμα, για να ακούγεται πιο φυσικός, ενώ δεν έγινε καμία ανιχνεύσιμη αλλαγή στη φωνή του τραγουδιστή.

Η χρήση της βαθιάς μάθησης που τροφοδοτείται από το πλαίσιο νευρωνικής ανάλυσης και σύνθεσης (NANSY) που αναπτύχθηκε από την Supertone κάνει το τραγούδι να ακούγεται πιο φυσικό σε σχέση με τη χρήση λογισμικού χωρίς τεχνητή νοημοσύνη, δήλωσε ο διευθύνων σύμβουλος της Supertone Τσόι Χι-ντου.

Η HYBE ανακοίνωσε τον Ιανουάριο την εξαγορά της Supertone ύψους 45 δισ.ν γουόν (32,1 εκατ ευρω). Η HYBE δήλωσε ότι σκοπεύει να καταστήσει μέρος της τεχνολογίας AI που χρησιμοποιείται στο τραγούδι της MIDNATT προσβάσιμο στους δημιουργούς και το κοινό, αλλά δεν διευκρίνισε αν θα χρεώνει αμοιβές.

Το τραγούδι αποτελεί το πιο πρόσφατο σημάδι της αυξανόμενης επιρροής της τεχνητής νοημοσύνης στη μουσική βιομηχανία, σε μια εποχή που τα βραβεία Grammy εισήγαγαν νέους κανόνες για τη χρήση της τεχνολογίας και τα mash-ups τραγουδιών που δημιουργούνται από τεχνητή νοημοσύνη κατακλύζουν πλέον τα μέσα κοινωνικής δικτύωσης.

Open Image Modal
KIM HONG-JI via Reuters

Το «Instagram» της μουσικής

Ο MIDNATT δήλωσε ότι η χρήση της τεχνητής νοημοσύνης του επέτρεψε ένα «ευρύτερο φάσμα καλλιτεχνικών εκφράσεων».

«Αισθάνομαι ότι το γλωσσικό εμπόδιο δεν υφίσταται πλέον και είναι πολύ πιο εύκολο για τους θαυμαστές μου απ′ όλο τον κόσμο να έχουν μια καθηλωτική εμπειρία με τη μουσική μου».

Αν και η τεχνολογία δεν είναι νέα, είναι ένας καινοτόμος τρόπος χρήσης της τεχνητής νοημοσύνης στη μουσική, δήλωσε ο Βαλέριο Βελάρδο, διευθυντής της The Sound of AI, μιας συμβουλευτικής υπηρεσίας για την τεχνητή νοημοσύνη στη μουσική και τον ήχο με έδρα την Ισπανία.

 Όχι μόνο οι επαγγελματίες μουσικοί, αλλά και πολλοί άλλοι θα επωφεληθούν μακροπρόθεσμα από τη μουσική τεχνολογία AI, πρόσθεσε ο Βελάρδο.

«Θα χαμηλώσει το φράγμα της μουσικής δημιουργίας. Είναι λίγο σαν το Instagram για φωτογραφίες, αλλά αφορά τη μουσική».

Προς το παρόν, η τεχνολογία διόρθωσης προφοράς του HYBE χρειάζεται «εβδομάδες ή και μήνες» για να γίνει σωστά, αλλά όταν η διαδικασία επιταχυνθεί, θα μπορούσε να εξυπηρετήσει ένα ευρύτερο φάσμα σκοπών, όπως η διερμηνεία σε βιντεοδιασκέψεις, δήλωσε ο Τσόι Γιν-γου, ο παραγωγός του “Masquerade” του MIDNATT.

Πηγή: Reuters