Нейромережа навчили перетворювати картини на музику

Нідерландські розробники створили нейромережу, здатну проявляти штучний аналог візуально-звукової синестезії - здатності співвідносити візуальні відчуття зі звуками. Алгоритм складається з двох частин, одна з яких кодує зображення у високорівневе уявлення, а друга декодує це уявлення в музику. Особливість алгоритму полягає в тому, що він навчався самостійно без пар типу зображення-музика. Розробники описали алгоритм у статті на arXiv.org, а також розкажуть про нього на конференції ICCVW 2019.


У широкому сенсі художники, фотографи і дизайнери використовують картини та інші візуальні твори як спосіб передачі інформації іншим людям. Однак такий спосіб донесення інформації не працює у випадку, якщо людина, яка дивиться на картину, має проблеми із зором. При цьому візуальні твори передають інформацію різним способом, наприклад, за допомогою сюжету, форми, кольору та інших особливостей, тобто їх можна описати аналітично. Це означає, що не існує фундаментальної проблеми для того, щоб передавати ту ж інформацію іншим способом так само, як люди можуть доносити інформацію до іноземців, використовуючи своє знання іншої мови або програму-перводчик.

Максиміліан Мюллер-Еберштайн (Maximilian Müller-Eberstein) і Нанне ван Ноорд (Nanne van Noord) з Амстердамського університету розробили алгоритм, здатний проводити перетворення між зображеннями і музикою, причому при навчанні він не вимагає співвідносити зображення з музикою, а вчиться цьому самостійно, застосовуючи метод навчання без вчителя.

Алгоритм побудовано на архітектурі автокодувальника. Такий алгоритм робить перетворення з вихідних даних на приховане уявлення, яке несе в собі основну інформацію про вихідні дані і дозволяє відновити їх в досить схожому вигляді. Автокодувальники складаються з кодувальника і декодувальника. Особливість таких алгоритмів полягає в тому, що, як правило, кодувальник і декодувальник працюють з різними даними. Наприклад, нещодавно дослідники з Google використовували таку архітектуру для перетворення музичної послідовності на будь-якому інструменті в партію на барабанах.

Нідерландські розробники у своїй роботі використовували більш незвичайний підхід і застосували кодувальник, який працює із зображеннями, і декодувальник, який працює з музикою. Для того, щоб використовувати метод навчання без учителя, автори застосували двонаправлений автокодувальник. Після того, як він провів перетворення із зображення в музику, він проводить зворотне перетворення з отриманої музики в нове зображення, після чого воно порівнюється з вихідним. Це дозволяє застосовувати функцію втрат і в ході навчання знижувати різницю між двома зображеннями, тим самим підвищуючи точність роботи автокодувальника.

Розробники навчали алгоритм на популярному датасеті MNIST, що містить 60 тисяч рукописних символів, а також на датасеті Behance Artistic Media, з якого вони використовували близько 180 тисяч картин маслом і аквареллю. Як музичного декодувальника вони використовували навчену нейросетеву модель MusicVAE.

Після навчання автори перевірили точність роботи алгоритму кількісно, за допомогою декількох метрик, у тому числі відстані Кульбака - Лейблера, а також якісно. Для другої оцінки вони попросили добровольців описати свої емоції при перегляді зображень з датасета з картинами. Експеримент показав, що після зворотного автокодування емоції збігалися з емоціями при оцінці вихідного зображення із середньою точністю 71 відсоток. Оцінити роботу алгоритму можна самостійно на сайті авторів.

Раніше архітектуру автокодувальника неодноразово використовували в інших роботах, пов'язаних з музикою. Наприклад, минулого року дослідники з Facebook створили нейромережу, здатну перетворювати один музичний запис на інший, в якому використовуються інші інструменти і жанр.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND