Штучний інтелект у молекулярній медицині
Дата публікації: 07.07.2023
Автори: Відкриті джерела , Редакція платформи «Аксемедін»
Ключові слова: штучний інтелект, машинне навчання, генетика, аналіз даних
Нові методи, такі як геномне секвенування та мас-спектрометрія, сприяли різкому збільшенню обсягу молекулярних даних, доступних науковцям і медичним працівникам, які шукають більш точні діагнози та більш ефективні методи лікування. Незважаючи на те, що найбільшого прогресу було досягнуто в генетичному секвенуванні ДНК і РНК, медичне застосування високовимірного визначення білків і метаболітів зростає.
Аналітичні інструменти були вдосконалені паралельно, щоб відповідати обсягу, швидкості та різноманітності цих молекулярних «великих даних». Поява машинного навчання виявилася особливо цінною. У цих підходах комп’ютерні системи використовують великі обсяги даних для побудови прогностичних статистичних моделей, які постійно вдосконалюються шляхом включення нових даних. Глибинне навчання, потужна підмножина машинного навчання, що включає використання глибоких нейронних мереж, знайшло широке застосування в розпізнаванні об’єктів зображення, розпізнаванні голосу, автономному водінні та віртуальній допомозі. Ці підходи зараз застосовуються в медицині для отримання клінічно орієнтованої медичної інформації.
Обробка даних для молекулярного профілювання
Серйозна зміна в нашій здатності вимірювати молекули в масштабі сприяла нинішній епосі персоналізованої медицини. Десятиліттями генетичне секвенування, засноване на техніці Сенгера, зосереджувалося на ділянках ДНК або РНК довжиною до кількох сотень основ. На початку 2000-х років такі підходи, як секвенування шляхом синтезу, набули популярності, дозволяючи одночасно синтезувати та зчитувати сотні, а згодом і мільярди коротких шаблонів ДНК. Новітні методи, які зосереджені на безперервному секвенуванні довгих молекул нуклеїнових кислот, мають додаткові переваги. У той час як проєкт “Геном людини” потребував 10 років для секвенування одного неповного моноплоїдного геному вартістю кілька мільярдів доларів, у 2022 році повніший геном людини можна секвенувати за 5 годин лише за кілька сотень доларів. Це прискорення доступності геномних даних породило попит на швидку обробку та точну інтерпретацію цих даних.
Результатом процесу геномного секвенування є комп’ютерний текстовий файл, у якому кожен рядок представляє окремо «прочитану» молекулу ДНК або РНК. Метою геномного секвенування зазвичай є отримання достатньої кількості даних, що перекриваються, щоб охопити кожну частину геному 40 разів. Деякі типи технологій охоплюють підмножину геному та покривають її багато разів. Цей вихідний текстовий файл має розмір від 100 до 200 гігабайтів (подібний до обсягу жорсткого диска сучасного ноутбука початкового рівня). Зчитування довжиною від кількох сотень до кількох мільйонів баз відображаються на еталонному геномі, створеному проєктові “Геном людини” за допомогою перетворення Берроуза–Вілера, методу, отриманого з теорії інформації про стиснення даних. Потім використовуються підходи машинного навчання або алгоритмічні підходи, щоб визначити, де аналізований геном відрізняється від еталонної послідовності. У результаті утворюється варіантний файл виклику — текстовий файл, зазвичай довжиною від 3 до 4 мільйонів рядків і розміром кілька мегабайтів.
Навпаки, мас-спектрометрія є робочою конячкою протеоміки (дослідження всіх білків у клітині) і метаболоміки (дослідження хімічних процесів, що включають метаболіти в клітинний метаболізм). Технологія заснована на тому, що апарат генерує іони, бомбардуючи органічні чи неорганічні сполуки електронами та розділяючи отримані позитивно заряджені фрагменти за співвідношенням їх маси до заряду. Перший етап мас-спектрометрії часто включає фазу розділення, таку як рідинна хроматографія, за якою слідує фаза спектрометрії. Вихідні дані представлені у вигляді спектральних графіків іонного сигналу як функції відношення маси до заряду. Ці вихідні графіки зазвичай представляють накладені сигнали від принаймні сотень хімічних об’єктів, які потрібно розкласти на окремі сигнали, відобразити за допомогою посилань на великі бази даних спектрів від відомих хімічних об’єктів, а потім обробити далі.
Застосування машинного навчання в геноміці
Найважливіший прогрес у застосуванні машинного навчання до геноміки (дослідження набору генів [генома] у клітині) відбувся у варіанті виклику: процес визначення, де знаходиться послідовність аналіту (наприклад, зразок пацієнта ) відрізняється від еталонної послідовності. Оскільки окремі зчитування відображаються у відповідній позиції в еталонному геномі, їх можна візуалізувати як «купу», в якій підсвічуються основи, відмінні від еталонного. Це візуальне представлення полегшує швидкий ручний перегляд у складних областях геному, розуміння, яке призвело до розробки підходу глибокого навчання до ідентифікації варіантів, який спирається на досягнення комп’ютерного зору та розпізнавання зображень. Інші підходи до виклику варіантів використовують машинне навчання в вужчих програмах, наприклад для технічного калібрування профілів помилок для конкретних варіантів або регіонів геному.
Застосування машинного навчання до даних Omics
Глибинні нейронні мережі є складними, нелінійними функціями, які підходять для великих наборів даних. Кілька шарів змінних ваг «нейронів» і нелінійностей перетворюють дані в абстрактні та маловимірні представлення, корисні для класифікації. Шари з’єднані через функцію активації, яка діє як воротар для подальшого поширення окремих виходів. У завданнях зображення функції об’єднання використовуються для зменшення масштабу вхідних даних у певних областях. Потім ваги нейронів уточнюються за допомогою процесу, відомого як зворотне розповсюдження, і остаточна класифікація зазвичай у формі достовірної оцінки для кожного з кількох вихідних варіантів. Згорткові нейронні мережі — це особлива форма глибоких нейронних мереж, які часто використовуються для розпізнавання зображень, які характеризуються процесом ковзання фільтрів над вхідним зображенням.
Завдяки потужності нейронних мереж і здатності зчитувати набагато довші молекули ДНК може виникнути нова ера в гаплотипуванні (відображення ланцюгів ДНК у батьківській хромосомі походження). Підхід до гаплотипування покращує якість виклику варіантів шляхом кращого представлення вихідних молекул ДНК і може інформувати про клінічне лікування — наприклад, у випадку складної гетерозиготності, коли ідентифікація батьківського походження двох варіантів в одному локусі може вплинути на догляд за пацієнтом. Нещодавно було досягнуто безпрецедентної точності за допомогою підходу до виклику варіантів, який поєднує гаплотипування з моделями, оптимізованими для послідовних даних, а потім описаний вище підхід згорткової нейронної мережі.
Удосконалення варіантного виклику в результаті цих досягнень було сприяно Національним інститутом стандартів і технологій через його Консорціум «Геном у пляшці» та FDA через ініціативу precisionFDA. Разом ці групи проводять відкриті змагання «Truth Challenge» зі стандартизованими зразками. Результати показують постійне покращення точності визначення варіантів у всьому геномі та, зокрема, у складних областях геному, таких як регіони, що кодують головний комплекс гістосумісності на хромосомі. Показники точності F1, які враховують як хибнопозитивні, так і хибнонегативні результати, коливаються між 0 — для найгіршого результату та 1,0 — для найкращого результату.
Машинне навчання також виявилося надзвичайно корисним у визначенні пріоритетів варіантів рідкісних захворювань. Наприклад, один із підходів використовував машинне навчання на основі логістичної регресії в рамках великого набору даних, отриманих з літератури, щоб зіставити фенотипи з генами-кандидатами, щоб допомогти ідентифікувати потенційно причинні гени менделівської хвороби. Інший підхід застосовує оцінку максимальної правдоподібності (ітераційний метод для оцінки параметрів моделі) і байєсівські мережі (імовірнісні графічні моделі) для досягнення тієї самої мети.
Застосування всіх цих підходів виявилося особливо успішним у виявленні рідкісних спадкових захворювань, численні дослідження показали, що частота виявлення недіагностованих генетичних захворювань становить від 30 до 50%. Використовуючи різноманітні методи, Мережа недіагностованих захворювань повідомила про частоту вирішення 35% для пацієнтів у дослідженні, третина з яких уже пройшла певну форму геномного секвенування. Крім того, у нещодавньому дослідженні за участю 13 449 пробандів із Сполученого Королівства та Ірландії рівень діагностики становив 41%. Таким чином, клінічне застосування секвенування тривалого зчитування нанопор не тільки покращило точність порівняно з попередніми підходами, але також мало потенціал для встановлення клінічних діагнозів у контексті рідкісних захворювань менш ніж за 8 годин.
В одному випадку у 6-місячного немовляти з судомним розладом була взята кров і високомолекулярна ДНК була отримана з білих лейкоцитів. Коли окремі ланцюги ДНК проходили через сотні тисяч білків нанопор, необроблені дані, що відображають зміну струму в реальному часі, надходили до рекурентної нейронної мережі, яка ідентифікувала базову генетичну послідовність. Ці послідовності були зіставлені з еталонною послідовністю за допомогою перетворення Берроуза-Вілера. Рекурентна нейронна мережа в поєднанні з прихованою марковською моделлю потім відокремила батьківське походження окремих молекул ДНК і визначила області, де геном немовляти відрізнявся від еталонної послідовності. Зрештою, згорточна нейронна мережа обробила нагромадження зображень, у результаті чого було отримано 4 503 667 варіантів сигналів.
Машинне навчання для транскриптоміки
Зчитування транскриптома (суми всіх транскриптів РНК в організмі) використовується як додатковий інструмент для ідентифікації причинних генів у рідкісних захворюваннях. Початкові спроби показали, що виявлення викидів експресії шляхом порівняння профілю експресії кожного гена з еталонним діапазоном може вказувати на гени, про які інакше не підозрюють. Для додаткової переваги цей підхід пізніше було об’єднано з моделями Байєса, які передбачають регуляторні ефекти для рідкісних варіантів. У великій когорті пацієнтів з недіагностованими рідкісними захворюваннями секвенування транскриптомів крові виявило причинно-наслідкові варіанти у 8% пацієнтів. Згодом ієрархічна байєсовська модель, що включає експресію генів, алель-специфічну експресію та альтернативні дані сплайсингу, була використана для ідентифікації генетично обумовлених аномалій транскриптомів.
Незважаючи на цей прогрес, прогнозування спайкових з'єднань залишається складною проблемою. Одна модель глибокого навчання з використанням 32-рівневої глибокої нейронної мережі показала перспективу в покращенні діагностики рідкісних захворювань. Показано, що використання автокодувальника, нейронної мережі, яка ефективно вивчає, як кодувати вхідні дані у стиснене представлення перед декодуванням їх назад у представлення оригінального введення, покращує прогноз аберантного сплайсингу на основі даних секвенування РНК.
Ці підходи були використані у випадку 12-річної дівчинки з регресією розвитку, тремором і судомами. Коротке зчитування геномної послідовності ідентифікувало 96 варіантів генів-кандидатів, жоден з яких не був відповідальним за стан пацієнта. Додавання алгоритму сплайсингу-викиду на основі секвенування РНК крові пацієнта ідентифікувало варіант посилення сплайсингу в KCTD7, якого не було в початковому списку, встановлюючи діагноз прогресуючої міоклонічної епілепсії.
Епігеномні застосування
Епігеноміка визначається як повний набір модифікацій, які впливають на експресію генів. Хоча відомо, що епігенетичні механізми відіграють певну роль у певних проявах рідкісних і поширених захворювань, характеристика хімічних модифікацій ДНК у масштабі лише починає впливати на клінічну медицину. Методи тривалого зчитування секвенування представляють захоплюючу можливість, оскільки вони створюють сигнали, коли нуклеотид проходить через білкову нанопору або як основа вбудовується ДНК-полімеразою. Ці підходи не вимагають бісульфітного перетворення попереднього стандарту, який, як було показано, викликає фрагментацію ДНК. Через критичну роль у тканинно-специфічній транскрипції найбільшу увагу було зосереджено на додаванні метильної групи до положення C5 залишків цитозину в послідовних динуклеотидних послідовностях CG, які називаються сайтами CpG. Підходи, що передбачають використання ряду нейронних мереж, включаючи згорточні нейронні мережі, двонаправлені рекурентні нейронні мережі, і комбінацію двох типів, досягли C-статистики понад 0,95 для виявлення метилювання, перевершуючи попередні моделі порівняння.
Машинне навчання для протеоміки
Глибоке навчання сприяло значному прогресу майже в усіх частинах робочого процесу протеоміки. Завдяки навчанню моделям спектральних графіків відомих хімічних речовин підходи глибокого навчання покращили передбачення спектрів пептидів-кандидатів, що є ключовим кроком для протеоміки на основі тандемної мас-спектрометрії. З використанням двонаправленої довгострокової пам’яті та підходу до глибокого навчання, у якому нейронна мережа послідовно передає інформацію вперед і назад через вхідний сигнал, один алгоритм передбачає пептиди з коефіцієнтом кореляції Пірсона понад 0,9, перевершуючи попередній стандарт на основі машинного навчання 0,85. Час утримування пептиду, який є моментом часу, коли пептид елююється з колонки рідинної хроматографії, також був точно передбачений за допомогою інструментів на основі згорткової нейронної мережі. Окрім мас-спектрометрії, секвенування пептидів de novo та ідентифікація білків були в центрі уваги програм глибокого навчання, які використовують як згорткові нейронні мережі, так і підходи до довготривалої короткочасної пам’яті. Один інструмент перевершив контрольні інструменти секвенування пептидів, зі статистикою C, яка була на 33% вищою за попередній стандарт, а інший інструмент на основі трансформатора показав охоплення послідовності від 97,7 до 99,5%. Крім того, нещодавно для прогнозування функції білка були застосовані великі мовні моделі з метою прискорення відкриття ліків.
Посттрансляційна модифікація білків у таких процесах, як фосфорилювання, має вирішальне значення для функціонування білків, регуляції та деградації, але кількісне визначення залишається невирішеною проблемою. Прогнозування сайтів посттрансляційної модифікації на підставі однієї лише білкової послідовності було успішним із застосуванням глибокого навчання, наприклад, ацетилювання та убіквітування. Прогнозування функції білка на основі пептидної послідовності також нещодавно було вдосконалено за допомогою комбінації підходів машинного навчання, а саме, прихованих моделей Маркова та ансамблю згорткових нейронних мереж. Комбіновані підходи зробили внесок у функціональні прогнози для 360 раніше неанотованих еталонних білків протеомів людини, розширивши охоплення стандартної бази даних сімейства білків більш ніж на 9%.
Прогнозування біомаркерів було основним клінічним центром протеоміки в останні роки. Дослідження були спрямовані на виявлення як одного маркера, так і мультимаркера. В одному дослідженні, у якому кількісне визначення білків було досягнуто за допомогою панелі аптамерів (олігонуклеотидів, які зв’язуються з білками), серії моделей машинного навчання були навчені прогнозувати 11 різних показників здоров’я, які зазвичай використовуються в профілактичній медицині (наприклад, 5-річний ризик первинної серцево-судинної події) у групі з приблизно 17 000 осіб без серйозних захворювань, на основі п’яти незалежних когортних досліджень. Кількісне визначення 94 білків передбачило жирове переродження печінки зі статистичним показником C 0,83 у когорті валідації. Дослідники припускають потенційне застосування цього методу діагностики в найближчій перспективі для неінвазивного виявлення неалкогольної жирової хвороби печінки. Підхід протеоміки за допомогою машинного навчання також виявив циркулюючі біомаркери алкогольної хвороби печінки, хвороби Альцгеймера та Паркінсона.
Застосування для метаболоміки
Метаболоміка фокусується на динаміці всього набору малих молекул організму. У порівнянні з протеомікою, яка зосереджена на білковому комплементі, метаболоміка включає вимірювання жирних кислот, ліпідів, органічних кислот, амінокислот, стероїдів і вуглеводів. Одним із центральних клінічних застосувань метаболоміки є діагностика вроджених порушень метаболізму. Класично, кількісне визначення конкретних класів метаболітів, таких як пурини та амінокислоти, здійснюється з використанням індивідуальних аналізів, при цьому основним обмеженням є апріорні припущення щодо потенційно уражених шляхів. Метаболоміка на основі мас-спектрометрії, навпаки, може поєднуватися з геномним секвенуванням як нецільова стратегія для розв'язання проблеми низького рівня діагностики серед пацієнтів із типовими ознаками вроджених порушень метаболізму, але з негативними результатами стандартного скринінгу. У недавньому дослідженні секвенування екзомів у поєднанні з метаболомікою покращило класифікацію варіантів. Наприклад, підхід метаболічного відбитка встановив діагноз дефіциту піруваткінази за допомогою машини опорного вектора, яка ідентифікує підгрупи шляхом знаходження гіперплощини в n-вимірному просторі. В іншому прикладі варіанти генів металопротеїнів надали навчальні дані для багатоканальної згорткової нейронної мережі, яка показала, що мутації в ділянці зв’язування заліза металопротеїнів були більш тісно пов’язані з метаболічними захворюваннями, ніж мутації в інших місцях.
Багатофункціональні додатки
Оскільки багатовимірні дані з різних типів технологій стають більш доступними, обчислювальні підходи до об’єднання даних стають більш важливими. Одним із найперших прикладів мультиомічного дослідження (тобто підходу, що об’єднує кілька типів даних «омів», таких як геном або протеом) був поздовжній аналіз за участю однієї людини, який поєднував геномні, транскриптомні, протеомні, метаболомні та аутоантитільні профілі. Інші з того часу використовували мультиомічний підхід для побудови кореляційної мережі, що відображає стани здоров’я та хвороби, і таким чином запропонували нові біомаркери для кардіометаболічних захворювань. Також повідомлялося про інші інтегративні підходи з використанням глибокого навчання. Ці підходи або об’єднують дані на ранній стадії, об’єднуючи дані omics і потім виконуючи єдиний аналіз, або об’єднують дані пізніше, створюючи спільну модель, яка поєднує результати кількох окремих аналізів omics. Деякі мультиомічні підходи виявилися успішними на клінічній арені, наприклад, у ідентифікації фактора транскрипції лейцинової застібки (LZTFL1), як кандидата на ефекторний ген у локусі ризику коронавірусної хвороби 2019 (Covid-19), з використання раніше опублікованих моделей машинного навчання, включаючи нейронні мережі. Припускаючи, що підвищена експресія LZTFL1 може бути пов’язана з гіршим результатом, це розуміння відкриває нові потенційні цілі для профілактики та лікування Covid-19. Нові біомаркери відповіді на імунотерапію також були виявлені шляхом аналізу даних геномної, транскриптомної та імунної відповіді при раку з використанням машини опорних векторів.
Висновки
За останнє десятиліття технологічний прогрес значно розширив нашу здатність вимірювати фундаментальні біологічні процеси в масштабі. Отриманий обсяг даних обробляється за допомогою методів машинного навчання, які все більше налаштовуються на аналіз багатовимірних наборів біологічних даних. Результатом є поступове детальне розуміння молекулярної траєкторії захворювання, яке зараз знаходить застосування в клінічній медицині, причому найбільшого прогресу було досягнуто в діагностиці, а в деяких випадках і лікуванні рідкісних генетичних захворювань.
ДЖЕРЕЛО: https://www.nejm.org