I chimici hanno spesso l'esigenza di prevedere o calcolare con esattezza le grandezze fisiche e le proprietà di sistemi chimici, sia che vogliano interpretare i dati ottenuti da esperimenti già effettuati, sia che vogliano orientarsi meglio prima di passare all'esperimento vero e proprio in laboratorio. A tal fine sono stati messi a punto dei metodi matematici, sia basati sulla fisica classica che sulla quantistica che su entrambe, in grado di simulare sistemi chimici in silico, cioè sfruttando un supporto informatico. Di questo si occupano i chimici computazionali, i quali tipicamente cominciano con simulazioni in DFT (density functional theory), un metodo efficace principalmente per descrivere lo stato fondamentale di un sistema polielettronico, che mostra i suoi limiti quando si trova a calcolare gli stati eccitati. Poiché nelle reazioni questi ultimi sono fondamentali, nel tempo sono stati sviluppati vari metodi per superare il problema all'interno della stessa DFT, con opportune approssimazioni o con l'introduzione di altre variabili (vedi TDFT), ma quando questa fallisce ci si rivolge ad altri approcci, come il CC o l'MP2. Questi, però, richiedono maggiori (migliaia di volte maggiori, si intende) risorse in termini di tempo e prestazioni di calcolo.

Come possiamo superare il problema:

  1. Migliorando l'hardware al punto di poter ricorrere direttamente alle teorie più esigenti, senza nemmeno porsi il problema.
  2. Elaborare un nuovo approccio informatico che sia efficace quanto i metodi più "avanzati", ma che richieda circa le stesse risorse del DFT.

Nessuna delle due vie è in discesa, ma ovviamente si fanno tentativi in ambo le direzioni. Per quel che riguarda il primo punto, che non è l'oggetto del presente articolo, si rimanda principalmente agli sforzi compiuti nell'elaborazione di processori a qubit, ossia di computer quantistici, che sarebbero utili in svariati campi oltre a quello chimico, ma anche pericolosi per i nostri sistemi di crittografia (ne parlavamo qui).

Thomas F. Miller e colleghi al California Institute of Technology si sono invece impegnati nell'applicazione del Machine Learning al fine di raggiungere il secondo obiettivo (Cos'è il Machine Learning? E perché non Intelligenza Artificiale?). Il fine dei ricercatori è uno dei classici obiettivi dei teorici computazionali: predire l'energia di correlazione elettronica, ossia una misura dell'interazione tra gli elettroni di una data struttura che aiuta a creare un modello verosimile che descriva il comportamento di una molecola. Per riuscirci sfruttano un approccio di ML (Machine Learning) che predice questi valori in base ad un set di dati di partenza.

ML Algoritmo simula sistemi chimici con ammoniaca, acqua, metano

Non è certo la prima volta che i chimici cercano di allenare un algoritmo di ML perché sostituisca le tecniche computazionali tradizionali, ma in tutti i tentativi precedenti il dataset era dato da una grande quantità di variabili, incluso il tipo di atomo e gli angoli di legame in una molecola. Il gruppo di Miller, invece, ha allenato l'algoritmo mediante un relativamente piccolo dataset dato dal tipo di orbitale molecolare della piccola molecola. Poiché gli orbitali molecolari non danno informazioni sul tipo di atomo e di angolo di legame, il nuovo algoritmo ha il grande vantaggio di estendere la propria capacità di calcolo anche a molecole molto lontane chimicamente da quelle del dataset di partenza. Inoltre, con un dataset più piccolo l'algoritmo impara più in fretta.

In un esempio, i ricercatori mostrano come la correlazione predetta per il metano in CC e con l'algoritmo di ML differisca solo dello 0,24% e si tratta del peggiore dei risultati ottenuti, se si guarda all'ammoniaca, l'acido fluoridrico, l'acqua. I tempi, però, sono drasticamente ridotti: per un calcolo in CC ci sono volute 28 ore, mentre per lo stesso con il ML sono bastati due minuti .

Esistono ovviamente anche in questo caso dei punti deboli: pare che l'algoritmo fatichi a predire i valori per il butano e l'isobutano, se il dataset di partenza è dato da metano ed etano. Includendo il propano nel dataset, invece, i risultati migliorano di molto.

Miller, comunque, spiega che l'obiettivo vero e proprio non è tanto la sostituzione dei vecchi metodi di calcolo, ma l'introduzione di un nuovo approccio molto rapido che affianchi i precedenti. Enfatizza inoltre come ancora lo studio di questi algoritmi sia solo agli inizi e che c'è ancora tanta strada da fare affinché essi possano essere utilizzati in massa.


Fonti:

JCTC

c&en