Come sempre quando di parla di ricerca e sviluppo (o più in generale di una qualunque questione scientifica), il punto di partenza è dato da un problema. Identificare un fenotipo a partire da delle immagini di cellule in coltura non è una sfida da poco e questo a causa dell'intrinseca complessità dei processi biologici e della variabilità dei campioni cellulari stessi; d'altra parte è utilissimo per comprendere gli effetti di un trattamento chimico o genomico. Il protocollo d'analisi convenzionale per l'identificazione del fenotipo comprende svariati passaggi indipendenti, ognuno con propri metodi di correzione specifici per parametri multipli.

L'approccio convenzionale all'analisi di questa tipologia di immagini prevede tipicamente l'estrazione di una specifica serie di informazioni utili sia a livello cellulare - mediante metodi che permettano prima di "segmentare l'immagine", cioè distinguere le cellule dallo sfondo e comprendere le caratteristiche di ognuna (Carpenter et al., 2006; Fuchs et al., 2010; Ljosa et al., 2013; Loo et al., 2007; Matula et al., 2009) - sia a livello dell'immagine nella sua totalità, mediante descrittori che non richiedono segmentazione (Chebira et al., 2007; Coelho et al., 2013; Huang and Murphy, 2004; Orlov et al., 2008; Uhlmann et al., 2016; Zhou et al., 2013;). A questo punto le informazioni rilevanti vengono selezionate, normalizzate, sintetizzate e servono come input per un algoritmo di classificazione che predice il fenotipo cellulare.

Approccio convenzionale

L'utilizzo di queste forme di imaging non accenna a calare, anzi è sempre più utilizzato nella Biologia dei sistemi e nel Drug discovery, ma le limitazioni dell'approccio appena riassunto sono lampanti e non dipendono certo dall'inefficienza dell'algoritmo finale, quanto più dalla lentezza delle fasi precedenti, la quale a sua volta è legata a doppio filo con la cautela che giustamente è richiesta in casi di questo tipo. Alla Novartis hanno pensato di superare il problema col deep learning, una applicazione del Machine Learning che, fondamentalmente, si basa su una simulazione d'apprendimento visiva da parte della macchina, spesso utilizzata nei social network per riconoscere i volti umani nelle foto e prevederne con buona probabilità l'identità. In maniera simile l'algoritmo "addestrato ad apprendere" è in grado di riconoscere quei dati utili dall'immagine grezza ed estrapolarli per poi darli in pasto all'algoritmo in grado di predire il fenotipo.

Approccio con Deep Learning

Il risultato è quello di rendere incredibilmente veloce l'acquisizione di statistiche e risultati che, mediante altre tecniche di analisi, richiederebbero settimane di lavoro e notevoli quantità di solventi, reagenti, terreni di coltura. In ultima analisi un simile risparmio di risorse e tempo è potenzialmente in grado di ridurre i tempi di indagine nel drug discovery e quindi garantire un ingresso anticipato di farmaci utili in Fase III (ossia in clinica, accessibili al paziente).

"Il Machine learning, data la sua impareggiabile capacità di insegnarci come stanno lavorando i nostri farmaci, ci sta conducendo a nuove possibilità terapeutiche con un'efficienza senza precedenti"

Afferma Jeremy Jenkins, capo della sezione Informatics for Chemical Biology and Therapeutics al NIBR (Novartis Institutes for BioMedical Research).

Dato che buona parte della stampa, presa dal delirio del momento, ultimamente sta rendendo le cose ancora più confusionarie di quanto non fossero qualche anno fa, in questo articolo faccio un po' di chiarezza sulle differenze tra machine learning ed intelligenza artificiale.

Il team ha inizialmente utilizzato un approccio supervisionato al deep learning, il che vuol dire che erano gli umani a dovere insegnare al sistema come riconoscere particolari effetti dal trattamento dei dati - come i cambiamenti nella forma di una cellula o dell'attività delle sue proteine - prima che il sistema potesse riconoscere questi effetti autonomamente. La rete è stata addestrata mostrandole immagini di cellule i cui campioni era già stati trattati con composti con attività nota, cosicché l'algoritmo fosse in grado di associare lo schema visivo all'attività del farmaco. A quel punto il gruppo di ricercatori è passato ad utilizzare immagini trattate con 100 composti sconosciuti.

Approccio con Deep Learning

La rete neurale si è dimostrata in grado di prevedere correttamente come i composti avrebbero mutato le condizioni delle colture, anche variando le dosi.

"Questo mostra come sia possibile per il sistema passare dall'immagine digitale alla comprensione della realtà biologica che si cela dietro essa in un solo step. Le predizioni si sono rivelate essere accurate al 100% circa"

dice William Godinez, che ha diretto il laboratorio al NIBR che ha condotto la ricerca. I ricercatori della Novartis hanno pubblicato i risultati del loro lavoro l'anno scorso. Più recentemente, Godinez ed i suoi collaboratori hanno parlato di importanti progressi con sistemi non supervisionati, che quindi non richiedono alcuna istruzione di partenza. L'importanza di passare ad algoritmi non supervisionati deriva dal fatto che in questo modo è possibile basare l'analisi non solo sugli effetti fenotipici già precedentemente individuati dagli studi di imaging condotti col metodo convenzionale, ma anche su quel tipo di effetti che esistono ma che sono finora sfuggiti al nostro sguardo, al nostro intuito e quindi alla nostra conoscenza.

Spiega Xian Zhang, un ricercatore del gruppo di Godinez:

"L'algoritmo non ha la più pallida idea di cosa stia osservando, ma non importa. Ciò di cui abbiamo bisogno è che individui le differenze utili tra i pattern visivi delle immagini che sottoponiamo alla macchina e che ci fornisca dei dati su cui potremo infine fare delle ipotesi per i nostri prossimi test."

Una delle parti più dispendiose nel processo di drug discovery è lo screening di composti con attività sconosciuta su cellule malate, un processo che spesso richiede interminabili analisi di ogni campione al fine di trovare dei composti che siano biologicamente attivi e poter quindi procedere con la ricerca. Per velocizzare questo processo il team di Godinez sta utilizzando le immagini di questi lunghi esperimenti per addestrare gli algoritmi di machine learning a predire rapidamente quali composti ancora non testati possano essere degni di un'attenzione maggiore. Hanno iniziato con una collezione di 3000 composti, ma puntano ad espandre l'uso del machine learning per screenare approssimativamente 1,5 milioni di composti presenti già negli archivi Novartis. Jenkins aggiunge:

"Non basta fare screening più estesi, dobbiamo farne di più intelligenti."

Ma non si tratta "solo" di screening e chemical biology: il Machine Learning ha potenziali applicazioni in una grande quantità di fasi critiche del processo di drug discovery ed è ragionevole pensare che in futuro permetterà un'accelerazione sostanziale di tutto il lavoro di ricerca e sviluppo per moltissimi progetti.


Fonti:

Oxford Bioinformatics

Novartis

Note:

Biologia dei Sistemi: La biologia dei sistemi è una disciplina biologica che studia gli organismi viventi in quanto sistemi che si evolvono nel tempo, ossia nell'interazione dinamica delle parti di cui sono composti. In particolare questo obiettivo viene conseguito tramite l'integrazione di modelli dinamici e dei risultati di differenti esperimenti ad alto rendimento (high-throughput), unendo nella pratica per esempio le conoscenze di genomica, proteomica, trascrittomica e di teoria dei sistemi dinamici.

Deep Learning: Il Deep Learning è una sotto-area del Machine Learning, nonché una delle sue applicazioni più innovative, che si avvale delle nuove possibilità offerte dagli hardware attuali. Usa una grande quantità di dati e di capacità computazionale per simulare delle Reti Neurali Profonde (da cui Deep Learning, appunto). Essenzialmente, queste reti imitano le connessioni neurali del cervello umano, classificando delle tabelle di dati e trovando le correlazioni che esistono tra di esse. Con la conoscenza acquisita da queste correlazioni (e si intende "acquisita senza l'intervento dell'uomo"), la macchina può applicare queste statistiche ad ulteriori database. Maggiore è la quantità di dati di cui la macchina dispone, più accurate saranno le predizioni.