Machine learning e fingerprints per predire la citotossicità

Quando si è alle prese con una nuova sostanza chimica la possibilità di predirne la citotossicità è un aspetto essenziale che, però, viene spesso reso difficile dal fatto che i dataset esistenti sono caratterizzati da un una alta varietà e problemi di squilibrio tra le classe.

Una ricerca cinese ha cercato di capire come utilizzare le machine learning e impronte molecolari per rendere il processo di previsione della citossicità più efficace e lo ha fatto utilizzando il dataset AID364 e testando varie strategie. I ricercatori sono partiti da 10 tipi di impronte molecolari e hanno utilizzato metodi di apprendimento basati su algoritmi specifici per studiarle e diversi metodi per bilanciare le classi presenti nel dataset.

Lo studio ha individuato il modello più efficace, il MACCS, con una sensibilità dell’81,8% ± 0.65% e una specificità del 76.0% ± 0.12% nella convalida incrociata e una sensibilità del 55,5% e una specificità del 78,5% nella validazione esterna. Il modello è stato poi applicato a dataset differenti per dimensione e gradi di squilibrio. Nello studio sono inoltre state identificate delle sottostrutture molecolari che dovrebbero funzionare da allerta perché spesso coinvolte nei processi di citotossicità.

Yin Z, Ai H, Zhang L, et al. Predicting the cytotoxicity of chemicals using ensemble learning methods and molecular fingerprints. J Appl Toxicol. 2019;1–12. https://doi.org/10.1002/jat.3785

https://onlinelibrary.wiley.com/doi/full/10.1002/jat.3785