Es mostren les entrades ordenades per data per a la consulta cell. Ordena per rellevància Mostra totes les entrades
Es mostren les entrades ordenades per data per a la consulta cell. Ordena per rellevància Mostra totes les entrades

02 de febrer 2025

Els grans models de llenguatge de les ciències de la vida

Learning the language of life with AI 

El darrer article de  l'Eric Topol a Science és una guia per a l'estat de situació dels models d'IA en ciències de la vida. El resum en IA és aquest:

L'article "Learning the language of life with AI" de Science tracta sobre els avenços recents en la intel·ligència artificial (IA) aplicada a les ciències de la vida, especialment en la comprensió i disseny de biomolècules. L'article destaca el ràpid progrés en aquest camp, des de models d'IA que prediuen l'estructura de proteïnes fins a sistemes multiagent que dissenyen nous anticossos.

Aquí hi ha alguns punts clau de l'article:

  • Models de llenguatge de la vida (Large language of life models) (LLLMs): Són models d'IA que, a diferència dels models multimodals com GPT-4, processen dades de diferents capes de la biologia molecular, com ara proteïnes, ARN, ADN i lligands.
  • AlphaFold 2: Aquest model va ser un precursor significatiu, ja que va resoldre el problema del plegament de proteïnes, predient estructures 3D per a més de 200 milions de proteïnes.
  • Nous models: L'article descriu diversos models recentment desenvolupats, com ara:
    • AlphaFold 3: Preveu l'estructura 3D de complexos de proteïnes, ADN, ARN, molècules petites i lligands.
    • Boltz-1: Un model de codi obert que prediu interaccions biomoleculars amb una precisió semblant a AlphaFold 3.
    • MassiveFold: Permet realitzar càlculs d'AlphaFold en paral·lel, reduint significativament el temps de computació.
    • EVOLVEpro: Un model de llenguatge de proteïnes per a l'enginyeria de proteïnes guiada per IA.
    • PocketGen: Defineix l'estructura atòmica de les interaccions proteïna-lligand.
    • RhoFold i RhoDesign: Per a la predicció de l'estructura 3D de l'ARN i el disseny d'aptàmers d'ARN, respectivament.
    • GET (general expression transformer): Preveu quins gens es transcriuran a ARN en diversos tipus de cèl·lules humanes.
    • Models de llenguatge d'ADN: Prediuen els efectes funcionals de les variacions en les regions codificants i no codificants del genoma humà.
    • MethylGPT i CpGPT: Models per a anàlisis epigenètiques, com l'estimació de l'edat cronològica.
    • SyntheMol: Ajuda a dissenyar i validar nous antibiòtics.
  • Single-Cell Similarity (SCimilarity): Identifica un tipus de cèl·lula utilitzant l'anàlisi del veí més proper.
  • Sistemes multiagent: Es menciona un sistema anomenat Virtual Lab, que utilitza múltiples agents d'IA amb diferents especialitats per dissenyar nanobodies contra el SARS-CoV-2. Aquest sistema va utilitzar tres LLLMs: AlphaFold-Multimer, Rosetta i ESM.
  • Cèl·lula virtual d'IA (AIVC): L'article planteja l'aspiració de construir una AIVC per simular les accions de molècules, cèl·lules i teixits, amb l'objectiu de revolucionar la investigació biomèdica, la medicina personalitzada i altres camps.
  • Digitalització de la biologia: Es compara la biologia amb l'enginyeria a causa dels avenços en IA, ja que ara es poden construir i comprendre els components de la vida mitjançant el mètode científic.
  • Complexitat de la vida: Tot i el progrés, l'article adverteix que la biologia és extremadament complexa i que la comparació amb màquines o robots pot no ser suficient.
  • Disponibilitat de dades: L'article destaca que hi ha una gran quantitat de dades per entrenar models d'aprenentatge automàtic, gràcies a iniciatives com el Projecte Genoma Humà, l'Atles de Cèl·lules Humanes i altres.
  • L'Atles de Cèl·lules Humanes ha mapejat 62 milions de cèl·lules i té previst arribar a 1.000 milions, amb la col·laboració de 3.000 científics de 100 països.

En resum, l'article explora com els LLLMs estan transformant la biologia, permetent una comprensió més profunda i precisa dels processos biològics i la capacitat de dissenyar noves eines i solucions en medicina i biotecnologia. L'article també destaca la col·laboració entre agents d'IA i la creixent digitalització de la biologia, alhora que recorda la gran complexitat del llenguatge de la vida.


Narcís Duran

15 de gener 2025

Proteòmica plasmàtica

 Atlas of the plasma proteome in health and disease in 53,026 adults

Hem arribat a desxifrar el 93% del Proteoma humà. Aquesta és una fita molt rellevant. I si ja havia parlat algunes vegades de l'Atles Cel·lular, ara toca fixar-nos amb el proteoma.

El més important és relacionar les proteïnes amb malalties i trets de salut. Això és el que s'ha presentat recentment a Cell i aquí resumeixo les 27 pàgines amb IA. 

Aquest article presenta un estudi proteòmic a gran escala que relaciona 2.920 proteïnes plasmàtiques amb 406 malalties prevalents, 660 malalties incidentals i 986 trets relacionats amb la salut en 53.026 adults del Biobanc del Regne Unit. L'estudi pretén crear un atles proteòmic complet per a la medicina de precisió, identificant biomarcadors per al diagnòstic i la predicció de malalties, i també possibles objectius terapèutics i oportunitats de reposicionament de fàrmacs.

A continuació es detallen les troballes i els mètodes principals de l'estudi:

**Associacions proteïna-malaltia:** Es van identificar **168.100 associacions proteïna-malaltia** i **554.488 associacions proteïna-trets**. Més de 650 proteïnes es van compartir entre almenys 50 malalties, i més de 1.000 van mostrar heterogeneïtat per sexe i edat. Algunes proteïnes van mostrar un potencial prometedor en la discriminació de malalties (àrea sota la corba [AUC] > 0,80 en 183 malalties).

**Anàlisi de regressió:** Es van utilitzar models de regressió logística per a les malalties prevalents i models de regressió de riscos proporcionals de Cox per a les malalties incidentals per investigar la relació entre els nivells de proteïnes plasmàtiques i les malalties.

**Proteïnes causals:** Mitjançant la integració de dades del locus de trets quantitatius de proteïnes (pQTL), es van determinar **474 proteïnes causals**, cosa que va comportar **37 oportunitats de reposicionament de fàrmacs i 26 possibles objectius terapèutics** amb perfils de seguretat favorables.

**Pleiotropia:** La majoria de les proteïnes van mostrar associacions multifenotípiques, amb algunes com la **GDF15** i la família del **TNF** que es van associar amb moltes malalties. Per exemple, **GDF15** es va associar amb la majoria de les malalties, incloses 205 prevalents i 397 incidents.

**Anàlisi de subgrups:** Es van dur a terme anàlisis de subgrups per sexe i edat per revelar associacions específiques. Es van trobar 37.979 i 22.911 associacions específiques per sexe en les associacions proteïna-malaltia incidentals i prevalents, respectivament.

**Anàlisi de sensibilitat:** Les anàlisis de sensibilitat van revelar que la majoria de les associacions proteïna-malaltia van seguir sent significatives després d'ajustar per la comorbiditat.

**Funcions biològiques:** L'anàlisi d'enriquiment funcional va revelar que les vies relacionades amb el sistema immunitari s'enriqueixen principalment en diverses malalties. Les vies relacionades amb la unió de TNF als seus receptors fisiològics van ser les més freqüents entre les malalties.

**Classificació de malalties:** Es va aplicar una agrupació jeràrquica per agrupar les 660 malalties en 40 grups basats en les magnituds de les associacions proteïna-malaltia. Les malalties amb similituds es van agrupar i van mostrar característiques biològiques singulars.

**Diagnòstic i predicció:** La integració de les proteïnes plasmàtiques a models demogràfics va millorar significativament la precisió diagnòstica i predictiva de moltes malalties.

**Randomització mendeliana (MR):** L'anàlisi MR va identificar proteïnes causals que contribueixen a la patogènesi de les malalties i proteïnes que poden ser conseqüència de determinades malalties. Per exemple, la proteïna **GDF15** es va associar causalment amb diverses malalties autoimmunes.

**Validació i reposicionament d'objectius terapèutics:** Es va identificar que moltes proteïnes associades a la malaltia coincidien amb el genoma utilitzable per a fàrmacs, cosa que indicava possibles objectius terapèutics. Es van descobrir **37 oportunitats de reposicionament de fàrmacs** per a 25 objectius terapèutics establerts.

**Interfície web:** Es va desenvolupar una eina web interactiva per explorar els resultats.

Aquest estudi proporciona un recurs de gran escala per a la investigació futura sobre el paper de les proteïnes en la patogènesi, detecció, diagnòstic i tractament de les malalties humanes. A més, l'estudi destaca el potencial de la proteòmica plasmàtica per a la implementació de la medicina de precisió.

PS Alphafold3, la gran eina.


Pilar Aymerich. Anys 70 BCN


02 de desembre 2024

El llenguatge de la vida

 

L'Eric Topol ens ofereix un resum d'alta qualitat per entendre el moment que viu la ciència mitjançant la intel·ligència artificial. 

Impressionant. Aquesta és la llista de grans models de llenguatge en ciències de la vida (LLLMs):

  1. Evo. This model was trained with 2.7 million evolutionary diverse organisms (prokaryotes—without a nucleus, and bacteriophages) representing 300 billion nucleotides to serve as a foundation model (with 7 billion parameters) for DNA language, predicting function of DNA, essentiality of a gene, impact of variants, and DNA sequence or function, and CRISPR-Cas prediction. It’s multimodal, cutting across protein-RNA and protein-DNA design.

    Figure below from accompanying perspective by Christina Theodoris.

  1. Human Cell Atlas A collection of publications from this herculean effort involving 3,000 scientists, 1,700 institutions, and 100 countries, mapping 62 million cells (on the way to 1 billion), with 20 new papers that can be found here. We have about 37 trillion cells in our body and until fairly recently it was thought there were about 200 cell types. That was way off—-now we know there are over 5,000.

    One of the foundation models built is Single-Cell (SC) SCimilarity, which acts as a nearest neighbor analysis for identifying a cell type, and includes perturbation markers for cells (Figure below). Other foundation models used in this initiative are scGPT, GeneFormeR, SC Foundation, and universal cell embedding. Collectively, this effort has been called th “Periodic Table of Cells” or a Wikipedia for cells and is fully open-source. Among so many new publications, a couple of notable outputs from the blitz of new reports include the finding of cancer-like (aneuploid) changes in 3% of normal breast tissue, representing clones of rare cells and metaplasia of gut tissue in people with inflammatory bowel disease.

  1. BOLTZ-1 This is a fully open-source model akin to AlphaFold 3, with similar state-of-the-art performance, for democratizing protein-molecular interactions as summarized above (for AlphaFold 3). Unlike AlphaFold 3 which is only available to the research community, this foundation model is open to all. It also has some tweaks incorporated beyond AlphaFold 3, as noted in the preprint.

  2. RhoFold For accurate 3D RNA structure prediction, pre-trained on almost 24 million RNA sequences, superior to all existing models (as shown below for one example).

  1. EVOLVEPro A large language protein model combined with a regression model for genome editing, antibody binding and many more applications for evolving proteins, all representing a jump forward for the field of A.I. guided protein engineering.

  2. PocketGen A model dedicated to defining the atomic structure of protein regions for their ligand interactions, surpassing all previous models for this purpose.

  3. MassiveFold A version of AlphaFold that does predictions in parallel, enabling a marked reduction of computing time from several months to hours

  4. RhoDesign From the same team that produced RhoFold, but this model is for efficient design of RNA aptamers that can be used for diagnostics or as a drug therapy.

  5. MethylGPT Built upon scGPT architecture, trained on over 225,000 samples, it captures and can reconstruct almost 50,000 relevant methylation CpG sites which help in predicting diseases and gauging the impact of interventions (see graphic below).

  6. CpGPT Trained on more than 100,000 samples, it is the optimal model to date fo predicting biological (epigenetic) age, imputing missing data, and understanding biology of methylation patterns.

  7. PIONEER A deep learning pipeline dedicated to the protein-protein interactome, identifying almost 600 protein-protein interactions (PPIs) from 11,000 exome sequencing across 33 types of cancer, leading to the capability of prediction which PPIs are associated with survival. (This was published 24 October, the only one not in November on the list!)


Al KBR, Cartier-Bresson
I per aquí aprop, mentrestant anem venent privadament la recerca inicial finançada públicament i perdem l'oremus, mentre alguns se n'aprofiten. Desgavell perfectament dissenyat.

23 de novembre 2024

El cos humà com un ecosistema cel·lular (2)

 A ‘Wikipedia for cells’: researchers get an updated look at the Human Cell Atlas, and it’s remarkable

Cellular atlases are unlocking the mysteries of the human body

The Human Cell Atlas: towards a first draft atlas










Figure 1 | Human cellular atlases.a, The Human Cell Atlas project aims to create cellular maps of human organs and tissues throughout life, and in health and disease. Cells are isolated from tissues during different stages of development and from cell-based organ models (organoids). Cell types and states can be captured using single-cell profiling techniques, mainly transcriptomics (using RNA transcripts to examine gene expression) but also other methods such as epigenomics (examining regulation of gene expression by assessing modifications to DNA and histone proteins). Sophisticated computational analyses are used to classify cell types and integrate information from different data types. b, Cellular atlases can be used to make inferences about human biology: spatial transcriptomics enables cells of defined type to be mapped to the tissue from which they originated, so that tissue architecture can be examined; cell differentiation and maturation during developmental processes can be traced; interactions between cells of different types can be inferred; and comparisons can be made between healthy and diseased tissue.



10 de juliol 2024

Té múscul la indústria biotech? (3)

Els periodistes busquen trobar notícies positives per explicar. La recerca biomèdica s'ha acabat convertint també en una font barata d'expectatives que obren la porta a nous medicaments. Obren tant la porta que hi ha corrent d'aire des de fa temps.

Llegeixo al diari la gran satisfacció d'un centre de recerca per un article que han publicat a Cancer Cell sobre un test sobre una biòpsia líquida que no és biòpsia sinó una anàlisi d'ADN circulant. I la notícia de veritat és que han decidit no patentar-ho per tal que d'altres ho puguin replicar. I jo ho trobo excel·lent i és el que moltes vegades he demanat que passi. Ara bé, convé seguir-ho d'aprop perquè si hi ha d'altres que se n'aprofiten i ho acaben patentant amb modificacions (que ha passat altres vegades) llavors no anem bé. Perquè acabarem on ja sabem, finançament públic de la recerca a canvi de l'apropiació privada de l'excedent.

I l'exemple de les llicències n'és un altra mostra clara del desgavell. En podem agafar una de recent cap una empresa de matriu xinesa que s'ha fet des de Vall d'Hebron, ANEW Medical. Cotitza al Nasdaq i tot sembla molt nordamericà, quan en realitat no ho és.

Busco quin és l'import rebut per aquesta llicència i no ho sé trobar als estats financers. I com aquesta tantes altres. El problema profund de fons és la manca de transparència en els resultats econòmics de la recerca. Ho dic des de fa anys i crec que ha arribat el moment d'establir una moratòria per no augmentar la inversió pública en recerca fins que no es resolgui aquesta qüestió.

La qüestió no és si té múscul la indústria biotech propera, que ja sabem que no, malgrat que en recerca hi hagi aportacions de qualitat. La qüestió és qui se n'està apropiant en estadis inicials. La paradoxa xinesa és ja la màxima.


PS. Cal dir que el motiu que apareguin tantes notícies també té a veure també amb la recerca de fons per la recerca, és una mostra de l'estratègia de maximitzar pressupostos.

PS. Aprofito per constatar l'inici de la fragmentació assistencial dins els hospitals. L'oncologia ha provocat que es modifiqués la funció de producció i hagi creat un hospital dins l'hospital, amb els seus propis laboratoris i serveis.