Пошук нових ліків - завдання не з легких.
Масив даних RxRx1, що містить 300 з гаком гігабайт інформації про різні біологічні контексти, в тому числі 125 000 зображень чотирьох типів клітин, був днями представлений громадськості на конференції з машинного навчання ICLR 2019. Компанія Recursion Pharmaceuticals, яка створила масив, оголосила, що він буде доступний для вільного використання. Для розробки ліків за допомогою методів машинного навчання потрібні великі обсяги експериментальних даних. Чим більше цих даних і чим вони якісніші, тим більше підстав очікувати реальних результатів. Так що оприлюднення масиву RxRx1 може спровокувати ШІ-революцію в області виявлення нових ліків.
Свого часу оприлюднення відкритого набору даних ImceNet, що містить уніфіковані підписані зображення різних об'єктів (наприклад, котиків і собачок), сприяло швидкому розвитку ШІ в області розпізнавання образів і комп'ютерного зору. Застосування штучного інтелекту в медицині, в тому числі для знаходження нових ліків, також крокує семимильними кроками. Такі компанії як AstraZeneca, Pfizer, і Merck & Co. активно використовують машинне навчання в своїх дослідницьких лабораторіях. Але для ще більш швидкого прогресу нео6ходимі великі масиви високоякісних даних. 6 травня біотехнологічна компанія Recursion Pharmaceuticals, розташована в Солт-Лейк-Сіті, штат Юта, оприлюднила датасет RxRx1 із зображеннями генетично модифікованих клітин. Його можна безкоштовно завантажити, а це важливо, оскільки для багатьох наукових і комерційних компаній він може значно зменшити вартість розробки нових ліків. Публікуючи датасет RxRx1, розробники сподіваються, аналогічно випадку з ImceNet, спровокувати швидкий розвиток ШІ-технологій.
RxRx1 за обсягом займає близько 300 гігабайт і включає 125 000 зображень. На кожній картинці зображено один з чотирьох типів клітин - клітини пупкових вен, очної сітківки, ракові клітини печінки і кістки. У кожній з таких клітин була проведена генетична модифікація: вчені за допомогою спеціально спроектованих відрізків РНК відключали той ген з тисячі обраних. Потім за допомогою спеціального мікроскопа був зображений ефект впливу РНК на різні частини клітин, у тому числі критично важливі для виробництва енергії, руху і вироблення і фолдингу білків. Компанія повторила цю процедуру 51 раз для зазначених чотирьох типів клітин протягом приблизно року.
Роблячи свій набір даних відкритим, Recursion сподівається допомогти іншим компаніям в області біотехнологій знаходити такі молекули, на які можна впливати новими ліками. Для навчання нових ШІ-моделей необхідний великий обсяг даних, створити який коштує чималих грошей. RxRx1 призначений для того, щоб задовольнити, хоча б частково, потребу в подібних наборах даних.
"Найкращі з ШІ-моделей, які ми можемо натренувати, все ще обмежені в даних. Якщо їх натренувати на більшій кількості зображень, моделі будуть відображати набагато більше тонкощів ",
говорить Джейсон Йосінскі (Jason Yosinski), радник з машинного навчання в Recursion.