Source de l'image : générée par l'outil d'IA illimitée
C'est un autre été de conditions météorologiques extrêmes, avec des vagues de chaleur, des incendies de forêt et des inondations sans précédent qui frappent des pays du monde entier. Pour relever le défi de prédire avec précision ces conditions météorologiques extrêmes, le géant des semi-conducteurs Nvidia construit des "jumeaux numériques" alimentés par l'intelligence artificielle de la planète entière.
Le jumeau numérique, appelé Earth-2, utilisera les prédictions de FourCastNet. FourCastNet est un modèle d'intelligence artificielle qui utilise des dizaines de téraoctets de données du système terrestre pour prédire la météo des deux prochaines semaines plus rapidement et avec plus de précision que les méthodes de prévision actuelles.
Un système de prévision météo typique est capable de générer environ 50 prévisions pour la semaine à venir. Et FourCastNet peut prédire des milliers de possibilités, capturant avec précision les risques de catastrophe rares mais mortels, donnant aux populations vulnérables un temps précieux pour se préparer et évacuer.
La révolution tant attendue de la modélisation climatique n'est que le début. Avec l'avènement de l'intelligence artificielle, la science est sur le point de devenir plus passionnante et, à certains égards, plus difficile à reconnaître. Les effets de ce changement iront bien au-delà du laboratoire ; ils nous affecteront tous.
Si nous adoptons la bonne stratégie pour résoudre les problèmes les plus urgents de la science avec une réglementation solide et un soutien approprié aux utilisations innovantes de l'IA, l'IA peut réécrire le processus scientifique. Nous pouvons construire un avenir dans lequel les outils alimentés par l'IA nous libèrent non seulement d'un travail insensé et chronophage, mais nous guident également vers des inventions et des découvertes créatives, encourageant des percées qui, autrement, prendraient des décennies à être réalisées.
Ces derniers mois, l'intelligence artificielle est devenue presque synonyme de grands modèles de langage, ou LLM, mais en science, il existe de nombreuses architectures de modèles différentes qui pourraient avoir un impact encore plus important. Une grande partie des progrès de la science au cours de la dernière décennie a été réalisée grâce à de petits modèles "classiques" qui se concentrent sur des problèmes spécifiques. Ces modèles ont conduit à de profondes améliorations. Plus récemment, des modèles d'apprentissage en profondeur à grande échelle qui ont commencé à intégrer des connaissances inter-domaines et l'IA générative ont élargi la gamme de ce qui est possible.
Par exemple, des scientifiques de l'Université McMaster et du Massachusetts Institute of Technology ont utilisé des modèles d'IA pour identifier les antibiotiques afin de combattre un agent pathogène qui, selon l'Organisation mondiale de la santé, est l'une des bactéries résistantes aux antibiotiques les plus dangereuses au monde pour les patients hospitalisés. De plus, le modèle DeepMind de Google peut contrôler le plasma dans les réactions de fusion nucléaire, nous rapprochant ainsi d'une révolution énergétique propre. Et dans le domaine de la santé, la Food and Drug Administration des États-Unis a approuvé 523 appareils utilisant l'intelligence artificielle, dont 75 % sont utilisés en radiologie.
Réinventer la science
Essentiellement, le processus scientifique que nous avons appris à l'école primaire restera le même : effectuer une recherche de fond, identifier une hypothèse, la tester avec une expérience, analyser les données recueillies et tirer une conclusion. Mais l'intelligence artificielle a le potentiel de révolutionner l'apparence de ces composants à l'avenir.
L'IA change déjà la façon dont certains scientifiques effectuent des revues de littérature. Des outils tels que PaperQA et Elicit exploitent les LLM pour analyser les bases de données d'articles et produire des résumés concis et précis de la littérature existante, y compris les citations.
Une fois la revue de la littérature terminée, les scientifiques émettent des hypothèses à tester. Le travail principal des LLM est de prédire le mot suivant dans une phrase, jusqu'à des phrases et des paragraphes complets. Cette technique rend les LLM particulièrement bien adaptés pour aborder l'échelle inhérente aux hiérarchies scientifiques et leur permet de prédire la prochaine grande découverte en physique ou en biologie.
L'IA peut également étendre les réseaux de recherche hypothétiques et réduire les réseaux de recherche plus rapidement. Ainsi, les outils d'IA peuvent aider à formuler des hypothèses plus solides, telles que des modèles qui suggèrent de nouveaux candidats-médicaments plus prometteurs. Les simulations exécutent désormais des ordres de grandeur plus rapidement qu'il y a quelques années à peine, ce qui permet aux scientifiques d'essayer davantage d'options de conception dans les simulations avant de mener des expériences dans le monde réel.
Par exemple, des scientifiques du California Institute of Technology ont utilisé des modèles de simulation de fluides d'intelligence artificielle pour concevoir automatiquement un meilleur cathéter capable d'empêcher le reflux bactérien et de provoquer une infection. Cette capacité changera fondamentalement le processus incrémental de découverte scientifique, permettant aux chercheurs de concevoir des solutions optimales dès le départ, contrairement à ce que nous avons vu pendant des années avec les innovations à filament dans la conception des ampoules, progressant à travers une longue chaîne de conceptions progressivement raffinées.
En entrant dans l'étape expérimentale, l'intelligence artificielle pourra mener des expériences plus rapidement, à moindre coût et à plus grande échelle. Par exemple, nous pouvons construire des machines alimentées par l'intelligence artificielle, avec des centaines de microtubules fonctionnant jour et nuit, créant des échantillons à une vitesse que les humains ne peuvent égaler. Au lieu de se limiter à six expériences, les scientifiques peuvent utiliser des outils d'IA pour exécuter un millier d'expériences.
Les scientifiques inquiets de la prochaine subvention, publication ou processus de titularisation ne seront plus attachés à l'expérience sûre avec les meilleures chances de succès ; ils seront libres de poursuivre des hypothèses plus audacieuses et plus interdisciplinaires. Par exemple, lors de l'évaluation de nouvelles molécules, les chercheurs ont tendance à s'en tenir à des candidats qui sont structurellement similaires à ceux que nous connaissons déjà, mais les modèles d'IA n'ont pas à avoir les mêmes biais et limites.
À terme, une grande partie de la science sera menée dans des "laboratoires autonomes" - des plates-formes robotiques autonomes combinées à l'intelligence artificielle. Ici, nous pouvons apporter les capacités de l'intelligence artificielle du domaine numérique au monde physique. De tels laboratoires automatisés apparaissent déjà dans des entreprises comme Emerald Cloud Lab et Artificial, et même Argonne National Laboratory.
Enfin, dans la phase d'analyse et de synthèse, le laboratoire automatisé ira au-delà de l'automatisation et utilisera LLM pour interpréter et recommander la prochaine expérience à exécuter en fonction des résultats expérimentaux produits. Ensuite, en tant que partenaire dans le processus de recherche, l'assistant de laboratoire d'IA peut commander des fournitures pour remplacer celles utilisées dans les expériences précédentes et configurer et exécuter la prochaine expérience recommandée pendant la nuit. Les résultats étaient prêts alors que les expérimentateurs dormaient encore à la maison.
Possibilités et limites
Les jeunes chercheurs pourraient frissonner nerveusement dans leur siège à la perspective. Heureusement, les nouveaux emplois issus de cette révolution sont peut-être plus créatifs et moins stupides que la plupart des travaux de laboratoire actuels.
Les outils d'IA peuvent réduire les barrières à l'entrée pour les nouveaux scientifiques et ouvrir des opportunités pour ceux qui sont traditionnellement exclus du domaine. Avec des LLM capables d'aider à la construction de code, les étudiants STEM n'auront plus besoin de maîtriser les langages de codage obscurs, ouvrant la porte de la tour d'ivoire à de nouveaux talents non traditionnels et facilitant l'exposition des scientifiques à des domaines extérieurs au leur. Bientôt, des LLM spécialement formés pourront aller au-delà de la simple fourniture de premières ébauches de travaux écrits, tels que des propositions de subventions, et pourront être développés pour fournir des évaluations « par les pairs » de nouveaux articles aux côtés d'examinateurs humains.
Les outils d'IA ont un potentiel incroyable, mais nous devons reconnaître où le contact humain est encore important et ne pas monter trop haut. Par exemple, il n'est pas facile de réussir à fusionner l'intelligence artificielle et la robotique à travers des laboratoires automatisés. Une grande partie des connaissances tacites acquises par les scientifiques en laboratoire est difficile à transférer à la robotique alimentée par l'IA. De même, nous devons être conscients des limites des LLM actuels, en particulier des hallucinations, avant de leur donner beaucoup de paperasse, de recherche et d'analyse.
Des entreprises comme OpenAI et DeepMind mènent toujours la charge avec de nouvelles percées, modèles et documents de recherche, mais la domination actuelle de l'industrie ne durera pas éternellement. Jusqu'à présent, DeepMind a excellé en se concentrant sur des problèmes bien définis avec des objectifs et des mesures clairs. Son succès le plus célèbre a été lors de la compétition biennale Critical Assessment of Structure Prediction, au cours de laquelle l'équipe de recherche a prédit la forme exacte d'une protéine en fonction de sa séquence d'acides aminés.
De 2006 à 2016, le score moyen pour la catégorie la plus difficile était d'environ 30 à 40 sur une échelle CASP de 1 à 100. Soudain, en 2018, le modèle AlphaFold de DeepMind a marqué 58 points. Deux ans plus tard, une version mise à jour appelée AlphaFold2 a marqué 87 points, laissant ses rivaux humains plus loin derrière.
Grâce aux ressources open source, nous commençons à voir un modèle où l'industrie atteint certains repères, puis le milieu universitaire intervient pour affiner le modèle. Après que DeepMind a publié AlphaFold, Minkyung Baek et David Baker de l'Université de Washington ont publié RoseTTAFold, qui utilise le cadre de DeepMind pour prédire la structure des complexes protéiques plutôt que les structures protéiques uniques qu'AlphaFold pouvait initialement gérer. De plus, le milieu universitaire est mieux protégé des pressions concurrentielles du marché, ce qui lui permet de s'aventurer au-delà des problèmes bien définis et des succès mesurables qui ont attiré DeepMind.
En plus d'atteindre de nouveaux sommets, l'IA peut aider à valider ce que nous savons déjà en s'attaquant à la crise de la réplicabilité scientifique. Environ 70% des scientifiques ont déclaré qu'ils étaient incapables de reproduire les expériences d'un autre scientifique - un nombre déprimant. Comme l'IA réduit le coût et l'effort d'exécution d'expériences, dans certains cas, il sera plus facile de reproduire des résultats ou de tirer des conclusions qui ne peuvent pas être reproduites, contribuant ainsi à améliorer la confiance dans la science.
La clé de la réplicabilité et de la confiance est la transparence. Dans un monde idéal, tout ce qui concerne la science serait ouvert, des articles sans paywalls aux données, codes et modèles open source. Malheureusement, en raison des dangers que ces modèles peuvent poser, il n'est pas toujours pratique d'ouvrir tous les modèles. Dans de nombreux cas, les risques d'une transparence totale l'emportent sur les avantages de la confiance et de l'équité. Pourtant, tant que nous pouvons être transparents sur les modèles - en particulier les modèles d'IA classiques avec des utilisations plus limitées - nous devrions les ouvrir.
Importance de la réglementation
Dans tous ces domaines, il faut garder à l'esprit les limites et les risques inhérents à l'IA. L'IA est un outil si puissant car elle permet aux humains d'accomplir plus avec moins de temps, moins d'éducation et moins d'équipement. Mais ces capacités en font également une arme dangereuse qui pourrait tomber entre de mauvaises mains. Andrew White, professeur à l'Université de Rochester, a signé avec OpenAI pour participer au test de "l'équipe rouge", qui peut exposer les risques du GPT-4 avant sa sortie. En utilisant des modèles de langage et en les alimentant d'outils, White a découvert que GPT-4 pouvait suggérer des composés dangereux et même les commander auprès de fournisseurs de produits chimiques. Pour tester le processus, il a fait expédier un composé de test (sûr) à son domicile la semaine suivante. OpenAI a déclaré avoir utilisé les découvertes de White pour modifier GPT-4 avant sa sortie.
Même les humains avec de parfaitement bonnes intentions peuvent encore conduire l'IA à produire de mauvais résultats. Nous devrions moins nous soucier de créer un Terminator et, comme le dit l'informaticien Stuart Russell, nous devrions nous inquiéter davantage de devenir le roi Midas. Le roi voulait que tout ce qu'il touchait soit transformé en or, et à cause de cela, une étreinte accidentelle a tué sa propre fille.
Nous n'avons aucun mécanisme pour amener une IA à changer ses objectifs, même si elle répond à ses objectifs d'une manière que nous ne pouvons pas prédire. Une hypothèse souvent citée est que l'IA est invitée à produire autant de trombones que possible. Déterminé à atteindre son objectif, le modèle détourne le réseau électrique et tue tous les humains qui tentent de l'arrêter alors que les trombones ne cessent de s'empiler. Le monde est devenu un gâchis. L'IA lui tapote le cul et s'en va ; elle a fait son travail. (En hommage à cette célèbre expérience de pensée, de nombreux employés d'OpenAI portent avec eux des trombones de marque).
OpenAI a réussi à mettre en œuvre un ensemble impressionnant de protections, mais celles-ci resteront en place tant que GPT-4 sera hébergé sur les serveurs d'OpenAI. Le jour viendra peut-être bientôt où quelqu'un réussira à répliquer le modèle et à le mettre sur son propre serveur. Les modèles de pointe comme celui-ci doivent être protégés pour empêcher les voleurs de démolir les barrières de sécurité de l'IA soigneusement ajoutées par leurs développeurs d'origine.
Pour lutter contre les mauvaises utilisations délibérées et involontaires de l'IA, nous avons besoin d'une réglementation sensée et éclairée des géants de la technologie et des modèles open source qui ne nous empêchent pas d'utiliser l'IA d'une manière qui profite à la science. Alors que les entreprises technologiques font des progrès en matière de sécurité de l'IA, les régulateurs gouvernementaux sont actuellement mal préparés à promulguer des lois appropriées et devraient faire davantage pour se tenir au courant des derniers développements.
En dehors de la réglementation, les gouvernements - ainsi que la philanthropie - peuvent soutenir des projets scientifiques à haut rendement social mais peu de retour financier ou d'incitation académique. Plusieurs domaines revêtent une urgence particulière, notamment le changement climatique, la biosécurité et la préparation aux pandémies. C'est dans ces domaines que nous avons le plus besoin de la vitesse et de l'échelle fournies par les simulations d'IA et les laboratoires automatisés.
Dans la mesure où les considérations de sécurité le permettent, les gouvernements peuvent également aider à développer de grands ensembles de données de haute qualité tels que celui sur lequel AlphaFold s'appuie. Les ensembles de données ouverts sont des biens publics : ils profitent à de nombreux chercheurs, mais les chercheurs sont peu incités à les créer eux-mêmes. Les gouvernements et les organisations philanthropiques peuvent collaborer avec les universités et les entreprises pour identifier les grands défis scientifiques qui bénéficieraient de l'utilisation de bases de données robustes.
La chimie, par exemple, a un langage qui unifie le domaine, ce qui semble aider les modèles d'IA à l'analyser facilement. Mais personne n'a été en mesure d'agréger correctement les données de propriétés moléculaires stockées dans des dizaines de bases de données, ce qui nous prive d'un aperçu du domaine que les modèles d'IA pourraient atteindre si nous n'avions qu'une seule source. Dans le même temps, la biologie manque de données connues et calculables sur lesquelles fonder la physique ou la chimie, et des sous-domaines comme les protéines intrinsèquement désordonnées restent mystérieux pour nous. En tant que tel, il faudra un effort plus concerté pour comprendre - et même documenter - les données afin de créer une base de données complète.
Le chemin vers l'adoption généralisée de l'IA dans la science est long, et nous devons faire beaucoup, de la construction des bonnes bases de données à l'application des bonnes réglementations, en passant par la réduction des biais dans les algorithmes d'IA, jusqu'à la garantie d'un accès égal aux ressources informatiques au-delà des frontières.
Néanmoins, c'est un moment très optimiste. Les précédents changements de paradigme scientifique, tels que le processus scientifique ou l'émergence des mégadonnées, étaient introvertis et pouvaient rendre la science plus précise et organisée. Dans le même temps, l'IA est expansive, nous permettant de combiner des informations de manière novatrice et de pousser la créativité scientifique et l'avancement vers de nouveaux sommets.
Voir l'original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Eric Schmidt, ancien PDG de Google : comment l'intelligence artificielle va changer la façon dont la recherche scientifique est menée
Écrit par : Eric Schmidt
Source : Examen de la technologie du MIT
C'est un autre été de conditions météorologiques extrêmes, avec des vagues de chaleur, des incendies de forêt et des inondations sans précédent qui frappent des pays du monde entier. Pour relever le défi de prédire avec précision ces conditions météorologiques extrêmes, le géant des semi-conducteurs Nvidia construit des "jumeaux numériques" alimentés par l'intelligence artificielle de la planète entière.
Le jumeau numérique, appelé Earth-2, utilisera les prédictions de FourCastNet. FourCastNet est un modèle d'intelligence artificielle qui utilise des dizaines de téraoctets de données du système terrestre pour prédire la météo des deux prochaines semaines plus rapidement et avec plus de précision que les méthodes de prévision actuelles.
Un système de prévision météo typique est capable de générer environ 50 prévisions pour la semaine à venir. Et FourCastNet peut prédire des milliers de possibilités, capturant avec précision les risques de catastrophe rares mais mortels, donnant aux populations vulnérables un temps précieux pour se préparer et évacuer.
La révolution tant attendue de la modélisation climatique n'est que le début. Avec l'avènement de l'intelligence artificielle, la science est sur le point de devenir plus passionnante et, à certains égards, plus difficile à reconnaître. Les effets de ce changement iront bien au-delà du laboratoire ; ils nous affecteront tous.
Si nous adoptons la bonne stratégie pour résoudre les problèmes les plus urgents de la science avec une réglementation solide et un soutien approprié aux utilisations innovantes de l'IA, l'IA peut réécrire le processus scientifique. Nous pouvons construire un avenir dans lequel les outils alimentés par l'IA nous libèrent non seulement d'un travail insensé et chronophage, mais nous guident également vers des inventions et des découvertes créatives, encourageant des percées qui, autrement, prendraient des décennies à être réalisées.
Ces derniers mois, l'intelligence artificielle est devenue presque synonyme de grands modèles de langage, ou LLM, mais en science, il existe de nombreuses architectures de modèles différentes qui pourraient avoir un impact encore plus important. Une grande partie des progrès de la science au cours de la dernière décennie a été réalisée grâce à de petits modèles "classiques" qui se concentrent sur des problèmes spécifiques. Ces modèles ont conduit à de profondes améliorations. Plus récemment, des modèles d'apprentissage en profondeur à grande échelle qui ont commencé à intégrer des connaissances inter-domaines et l'IA générative ont élargi la gamme de ce qui est possible.
Par exemple, des scientifiques de l'Université McMaster et du Massachusetts Institute of Technology ont utilisé des modèles d'IA pour identifier les antibiotiques afin de combattre un agent pathogène qui, selon l'Organisation mondiale de la santé, est l'une des bactéries résistantes aux antibiotiques les plus dangereuses au monde pour les patients hospitalisés. De plus, le modèle DeepMind de Google peut contrôler le plasma dans les réactions de fusion nucléaire, nous rapprochant ainsi d'une révolution énergétique propre. Et dans le domaine de la santé, la Food and Drug Administration des États-Unis a approuvé 523 appareils utilisant l'intelligence artificielle, dont 75 % sont utilisés en radiologie.
Réinventer la science
Essentiellement, le processus scientifique que nous avons appris à l'école primaire restera le même : effectuer une recherche de fond, identifier une hypothèse, la tester avec une expérience, analyser les données recueillies et tirer une conclusion. Mais l'intelligence artificielle a le potentiel de révolutionner l'apparence de ces composants à l'avenir.
L'IA change déjà la façon dont certains scientifiques effectuent des revues de littérature. Des outils tels que PaperQA et Elicit exploitent les LLM pour analyser les bases de données d'articles et produire des résumés concis et précis de la littérature existante, y compris les citations.
Une fois la revue de la littérature terminée, les scientifiques émettent des hypothèses à tester. Le travail principal des LLM est de prédire le mot suivant dans une phrase, jusqu'à des phrases et des paragraphes complets. Cette technique rend les LLM particulièrement bien adaptés pour aborder l'échelle inhérente aux hiérarchies scientifiques et leur permet de prédire la prochaine grande découverte en physique ou en biologie.
L'IA peut également étendre les réseaux de recherche hypothétiques et réduire les réseaux de recherche plus rapidement. Ainsi, les outils d'IA peuvent aider à formuler des hypothèses plus solides, telles que des modèles qui suggèrent de nouveaux candidats-médicaments plus prometteurs. Les simulations exécutent désormais des ordres de grandeur plus rapidement qu'il y a quelques années à peine, ce qui permet aux scientifiques d'essayer davantage d'options de conception dans les simulations avant de mener des expériences dans le monde réel.
Par exemple, des scientifiques du California Institute of Technology ont utilisé des modèles de simulation de fluides d'intelligence artificielle pour concevoir automatiquement un meilleur cathéter capable d'empêcher le reflux bactérien et de provoquer une infection. Cette capacité changera fondamentalement le processus incrémental de découverte scientifique, permettant aux chercheurs de concevoir des solutions optimales dès le départ, contrairement à ce que nous avons vu pendant des années avec les innovations à filament dans la conception des ampoules, progressant à travers une longue chaîne de conceptions progressivement raffinées.
En entrant dans l'étape expérimentale, l'intelligence artificielle pourra mener des expériences plus rapidement, à moindre coût et à plus grande échelle. Par exemple, nous pouvons construire des machines alimentées par l'intelligence artificielle, avec des centaines de microtubules fonctionnant jour et nuit, créant des échantillons à une vitesse que les humains ne peuvent égaler. Au lieu de se limiter à six expériences, les scientifiques peuvent utiliser des outils d'IA pour exécuter un millier d'expériences.
Les scientifiques inquiets de la prochaine subvention, publication ou processus de titularisation ne seront plus attachés à l'expérience sûre avec les meilleures chances de succès ; ils seront libres de poursuivre des hypothèses plus audacieuses et plus interdisciplinaires. Par exemple, lors de l'évaluation de nouvelles molécules, les chercheurs ont tendance à s'en tenir à des candidats qui sont structurellement similaires à ceux que nous connaissons déjà, mais les modèles d'IA n'ont pas à avoir les mêmes biais et limites.
À terme, une grande partie de la science sera menée dans des "laboratoires autonomes" - des plates-formes robotiques autonomes combinées à l'intelligence artificielle. Ici, nous pouvons apporter les capacités de l'intelligence artificielle du domaine numérique au monde physique. De tels laboratoires automatisés apparaissent déjà dans des entreprises comme Emerald Cloud Lab et Artificial, et même Argonne National Laboratory.
Enfin, dans la phase d'analyse et de synthèse, le laboratoire automatisé ira au-delà de l'automatisation et utilisera LLM pour interpréter et recommander la prochaine expérience à exécuter en fonction des résultats expérimentaux produits. Ensuite, en tant que partenaire dans le processus de recherche, l'assistant de laboratoire d'IA peut commander des fournitures pour remplacer celles utilisées dans les expériences précédentes et configurer et exécuter la prochaine expérience recommandée pendant la nuit. Les résultats étaient prêts alors que les expérimentateurs dormaient encore à la maison.
Possibilités et limites
Les jeunes chercheurs pourraient frissonner nerveusement dans leur siège à la perspective. Heureusement, les nouveaux emplois issus de cette révolution sont peut-être plus créatifs et moins stupides que la plupart des travaux de laboratoire actuels.
Les outils d'IA peuvent réduire les barrières à l'entrée pour les nouveaux scientifiques et ouvrir des opportunités pour ceux qui sont traditionnellement exclus du domaine. Avec des LLM capables d'aider à la construction de code, les étudiants STEM n'auront plus besoin de maîtriser les langages de codage obscurs, ouvrant la porte de la tour d'ivoire à de nouveaux talents non traditionnels et facilitant l'exposition des scientifiques à des domaines extérieurs au leur. Bientôt, des LLM spécialement formés pourront aller au-delà de la simple fourniture de premières ébauches de travaux écrits, tels que des propositions de subventions, et pourront être développés pour fournir des évaluations « par les pairs » de nouveaux articles aux côtés d'examinateurs humains.
Les outils d'IA ont un potentiel incroyable, mais nous devons reconnaître où le contact humain est encore important et ne pas monter trop haut. Par exemple, il n'est pas facile de réussir à fusionner l'intelligence artificielle et la robotique à travers des laboratoires automatisés. Une grande partie des connaissances tacites acquises par les scientifiques en laboratoire est difficile à transférer à la robotique alimentée par l'IA. De même, nous devons être conscients des limites des LLM actuels, en particulier des hallucinations, avant de leur donner beaucoup de paperasse, de recherche et d'analyse.
Des entreprises comme OpenAI et DeepMind mènent toujours la charge avec de nouvelles percées, modèles et documents de recherche, mais la domination actuelle de l'industrie ne durera pas éternellement. Jusqu'à présent, DeepMind a excellé en se concentrant sur des problèmes bien définis avec des objectifs et des mesures clairs. Son succès le plus célèbre a été lors de la compétition biennale Critical Assessment of Structure Prediction, au cours de laquelle l'équipe de recherche a prédit la forme exacte d'une protéine en fonction de sa séquence d'acides aminés.
De 2006 à 2016, le score moyen pour la catégorie la plus difficile était d'environ 30 à 40 sur une échelle CASP de 1 à 100. Soudain, en 2018, le modèle AlphaFold de DeepMind a marqué 58 points. Deux ans plus tard, une version mise à jour appelée AlphaFold2 a marqué 87 points, laissant ses rivaux humains plus loin derrière.
Grâce aux ressources open source, nous commençons à voir un modèle où l'industrie atteint certains repères, puis le milieu universitaire intervient pour affiner le modèle. Après que DeepMind a publié AlphaFold, Minkyung Baek et David Baker de l'Université de Washington ont publié RoseTTAFold, qui utilise le cadre de DeepMind pour prédire la structure des complexes protéiques plutôt que les structures protéiques uniques qu'AlphaFold pouvait initialement gérer. De plus, le milieu universitaire est mieux protégé des pressions concurrentielles du marché, ce qui lui permet de s'aventurer au-delà des problèmes bien définis et des succès mesurables qui ont attiré DeepMind.
En plus d'atteindre de nouveaux sommets, l'IA peut aider à valider ce que nous savons déjà en s'attaquant à la crise de la réplicabilité scientifique. Environ 70% des scientifiques ont déclaré qu'ils étaient incapables de reproduire les expériences d'un autre scientifique - un nombre déprimant. Comme l'IA réduit le coût et l'effort d'exécution d'expériences, dans certains cas, il sera plus facile de reproduire des résultats ou de tirer des conclusions qui ne peuvent pas être reproduites, contribuant ainsi à améliorer la confiance dans la science.
La clé de la réplicabilité et de la confiance est la transparence. Dans un monde idéal, tout ce qui concerne la science serait ouvert, des articles sans paywalls aux données, codes et modèles open source. Malheureusement, en raison des dangers que ces modèles peuvent poser, il n'est pas toujours pratique d'ouvrir tous les modèles. Dans de nombreux cas, les risques d'une transparence totale l'emportent sur les avantages de la confiance et de l'équité. Pourtant, tant que nous pouvons être transparents sur les modèles - en particulier les modèles d'IA classiques avec des utilisations plus limitées - nous devrions les ouvrir.
Importance de la réglementation
Dans tous ces domaines, il faut garder à l'esprit les limites et les risques inhérents à l'IA. L'IA est un outil si puissant car elle permet aux humains d'accomplir plus avec moins de temps, moins d'éducation et moins d'équipement. Mais ces capacités en font également une arme dangereuse qui pourrait tomber entre de mauvaises mains. Andrew White, professeur à l'Université de Rochester, a signé avec OpenAI pour participer au test de "l'équipe rouge", qui peut exposer les risques du GPT-4 avant sa sortie. En utilisant des modèles de langage et en les alimentant d'outils, White a découvert que GPT-4 pouvait suggérer des composés dangereux et même les commander auprès de fournisseurs de produits chimiques. Pour tester le processus, il a fait expédier un composé de test (sûr) à son domicile la semaine suivante. OpenAI a déclaré avoir utilisé les découvertes de White pour modifier GPT-4 avant sa sortie.
Même les humains avec de parfaitement bonnes intentions peuvent encore conduire l'IA à produire de mauvais résultats. Nous devrions moins nous soucier de créer un Terminator et, comme le dit l'informaticien Stuart Russell, nous devrions nous inquiéter davantage de devenir le roi Midas. Le roi voulait que tout ce qu'il touchait soit transformé en or, et à cause de cela, une étreinte accidentelle a tué sa propre fille.
Nous n'avons aucun mécanisme pour amener une IA à changer ses objectifs, même si elle répond à ses objectifs d'une manière que nous ne pouvons pas prédire. Une hypothèse souvent citée est que l'IA est invitée à produire autant de trombones que possible. Déterminé à atteindre son objectif, le modèle détourne le réseau électrique et tue tous les humains qui tentent de l'arrêter alors que les trombones ne cessent de s'empiler. Le monde est devenu un gâchis. L'IA lui tapote le cul et s'en va ; elle a fait son travail. (En hommage à cette célèbre expérience de pensée, de nombreux employés d'OpenAI portent avec eux des trombones de marque).
OpenAI a réussi à mettre en œuvre un ensemble impressionnant de protections, mais celles-ci resteront en place tant que GPT-4 sera hébergé sur les serveurs d'OpenAI. Le jour viendra peut-être bientôt où quelqu'un réussira à répliquer le modèle et à le mettre sur son propre serveur. Les modèles de pointe comme celui-ci doivent être protégés pour empêcher les voleurs de démolir les barrières de sécurité de l'IA soigneusement ajoutées par leurs développeurs d'origine.
Pour lutter contre les mauvaises utilisations délibérées et involontaires de l'IA, nous avons besoin d'une réglementation sensée et éclairée des géants de la technologie et des modèles open source qui ne nous empêchent pas d'utiliser l'IA d'une manière qui profite à la science. Alors que les entreprises technologiques font des progrès en matière de sécurité de l'IA, les régulateurs gouvernementaux sont actuellement mal préparés à promulguer des lois appropriées et devraient faire davantage pour se tenir au courant des derniers développements.
En dehors de la réglementation, les gouvernements - ainsi que la philanthropie - peuvent soutenir des projets scientifiques à haut rendement social mais peu de retour financier ou d'incitation académique. Plusieurs domaines revêtent une urgence particulière, notamment le changement climatique, la biosécurité et la préparation aux pandémies. C'est dans ces domaines que nous avons le plus besoin de la vitesse et de l'échelle fournies par les simulations d'IA et les laboratoires automatisés.
Dans la mesure où les considérations de sécurité le permettent, les gouvernements peuvent également aider à développer de grands ensembles de données de haute qualité tels que celui sur lequel AlphaFold s'appuie. Les ensembles de données ouverts sont des biens publics : ils profitent à de nombreux chercheurs, mais les chercheurs sont peu incités à les créer eux-mêmes. Les gouvernements et les organisations philanthropiques peuvent collaborer avec les universités et les entreprises pour identifier les grands défis scientifiques qui bénéficieraient de l'utilisation de bases de données robustes.
La chimie, par exemple, a un langage qui unifie le domaine, ce qui semble aider les modèles d'IA à l'analyser facilement. Mais personne n'a été en mesure d'agréger correctement les données de propriétés moléculaires stockées dans des dizaines de bases de données, ce qui nous prive d'un aperçu du domaine que les modèles d'IA pourraient atteindre si nous n'avions qu'une seule source. Dans le même temps, la biologie manque de données connues et calculables sur lesquelles fonder la physique ou la chimie, et des sous-domaines comme les protéines intrinsèquement désordonnées restent mystérieux pour nous. En tant que tel, il faudra un effort plus concerté pour comprendre - et même documenter - les données afin de créer une base de données complète.
Le chemin vers l'adoption généralisée de l'IA dans la science est long, et nous devons faire beaucoup, de la construction des bonnes bases de données à l'application des bonnes réglementations, en passant par la réduction des biais dans les algorithmes d'IA, jusqu'à la garantie d'un accès égal aux ressources informatiques au-delà des frontières.
Néanmoins, c'est un moment très optimiste. Les précédents changements de paradigme scientifique, tels que le processus scientifique ou l'émergence des mégadonnées, étaient introvertis et pouvaient rendre la science plus précise et organisée. Dans le même temps, l'IA est expansive, nous permettant de combiner des informations de manière novatrice et de pousser la créativité scientifique et l'avancement vers de nouveaux sommets.