Wie Text Mining von wissenschaftlicher Literatur zu neuen Entdeckungen führt
11. Juli 2019Wie Text Mining von wissenschaftlicher Literatur zu neuen Entdeckungen führt
New York, 10.7.2019
Forscher des Lawrence Berkeley National Laboratory des US-Energieministeriums haben gezeigt, dass ein Algorithmus ohne Training auf dem Gebiet der Materialwissenschaft aus 3,3 Millionen Abstracts neue wissenschaftliche Erkenntnisse gewinnen kann.
Unter der Leitung von Anubhav Jain, einem Wissenschaftler in der Energy Storage & Distributed Resources Division von Berkeley Lab, wurden 3,3 Millionen Abstracts von materialwissenschaftlichen Arbeiten gesammelt und in einen Algorithmus namens Word2vec eingeführt. Durch die Analyse der Beziehungen zwischen den Wörtern konnte der Algorithmus die Entdeckungen neuer thermoelektrischer Materialien Jahre im Voraus vorhersagen und bisher unbekannte Materialien als Kandidaten für thermoelektrische Materialien vorschlagen.
Jain erläutert diesen erstaunlichen Prozeß so: „Ohne ihm etwas über die Materialwissenschaft zu sagen, lernte er Konzepte wie das Periodensystem und die Kristallstruktur von Metallen. Das deutete auf das Potenzial der Technik hin. Aber das wahrscheinlich Interessanteste, was wir herausgefunden haben, ist, dass man mit diesem Algorithmus Lücken in der Materialforschung schließen kann, Dinge, die Menschen studieren sollten, aber noch nicht studiert haben.“
Als Hauptautorin der Studie wird Vahe Tshitoyan, ein Postdoktorand von Berkeley Lab, der jetzt bei Google arbeitet, genannt. Ihm standen neben Jain noch Kristin Persson (Berkeley Lab) sowie Gerbrand Ceder zur Seite.
Zum Ursprung der Studie eklärt Tshitoyan: „In jedem Forschungsbereich gibt es 100 Jahre Forschungsliteratur, und jede Woche kommen Dutzende weitere Studien heraus“, sagt er. „Ein Forscher kann nur auf einen Bruchteil davon zugreifen. Wir dachten: Kann maschinelles Lernen etwas tun, um all dieses kollektive Wissen zu nutzen – ohne die Hilfe von Humanforschern zu benötigen?“
Das Team sammelte dann die 3,3 Millionen Abstracts aus Papieren, die zwischen 1922 und 2018 in mehr als 1.000 Zeitschriften veröffentlicht wurden. Word2vec nahm jedes der etwa 500.000 verschiedenen Wörter in diesen Abstracts auf und verwandelte jedes in einen 200-dimensionalen Vektor oder eine Reihe von 200 Zahlen.
„Wichtig ist nicht jede Zahl, sondern die Verwendung der Zahlen, um zu sehen, wie Wörter miteinander in Beziehung stehen“, sagt Jain. , der eine Gruppe leitet, die an der Entdeckung und Entwicklung neuer Materialien für Energieanwendungen arbeitet, die eine Mischung aus Theorie, Berechnung und Data Mining verwenden. „Zum Beispiel können Sie Vektoren mit Hilfe der Standard-Vektor-Mathematik subtrahieren. Andere Forscher haben gezeigt, dass, wenn man den Algorithmus auf unwissenschaftlichen Textquellen trainiert und den Vektor nimmt, der sich aus „König minus Dame“ ergibt, man das gleiche Ergebnis wie „Mann minus Frau“ erhält. Es findet die Beziehung heraus, ohne dass du ihr etwas sagst.“
Ebenso konnte der Algorithmus, wenn er auf materialwissenschaftlichem Text trainiert wurde, die Bedeutung wissenschaftlicher Begriffe und Konzepte wie die Kristallstruktur von Metallen erlernen, die einfach auf den Positionen der Wörter in den Abstracts und ihrem Zusammenkommen mit anderen Wörtern basieren. Zum Beispiel, so wie es die Gleichung „König – Dame + Mann“ lösen könnte, könnte es herausfinden, dass für die Gleichung „ferromagnetisch – NiFe + IrMn“ die Antwort „antiferromagnetisch“ wäre.
Word2vec konnte sogar die Beziehungen zwischen den Elementen des Periodensystems erlernen, wenn der Vektor für jedes chemische Element auf zwei Dimensionen projiziert wurde.
Wenn Word2vec also so intelligent ist, könnte es dann neue thermoelektrische Materialien vorhersagen? Ein gutes thermoelektrisches Material kann Wärme effizient in Strom umwandeln und besteht aus Materialien, die sicher, reichlich vorhanden und einfach zu produzieren sind.
Das Berkeley Lab-Team nahm die besten thermoelektrischen Kandidaten, die vom Algorithmus vorgeschlagen wurden, der jede Verbindung nach der Ähnlichkeit ihres Wortvektors mit dem des Wortes „thermoelektrisch“ einordnete. Dann führten sie Berechnungen durch, um die Vorhersagen des Algorithmus zu überprüfen.
Von den Top-10-Vorhersagen fanden sie heraus, dass alle berechneten Leistungsfaktoren etwas höher waren als der Durchschnitt der bekannten Thermoelektrika; die ersten drei Kandidaten hatten Leistungsfaktoren oberhalb des 95. Perzentils der bekannten Thermoelektrika.
Als nächstes testeten sie, ob der Algorithmus „in der Vergangenheit“ Experimente durchführen konnte, indem er ihm Abstracts nur bis etwa zum Jahr 2000 gab. Auch hier tauchte in späteren Studien eine beträchtliche Anzahl von Top-Vorhersagen auf – viermal mehr, als wenn die Materialien einfach zufällig ausgewählt worden wären. So wurden beispielsweise drei der fünf besten Vorhersagen, die bis zum Jahr 2008 mit Daten trainiert wurden, inzwischen entdeckt und die beiden anderen enthalten seltene oder toxische Elemente.
Die Ergebnisse waren überraschend. „Ich habe ehrlich gesagt nicht erwartet, dass der Algorithmus so prädiktiv für zukünftige Ergebnisse ist“, sagt Jain. „Ich hatte gedacht, dass der Algorithmus vielleicht beschreibend sein könnte für das, was die Leute vorher getan hatten, aber nicht mit diesen verschiedenen Verbindungen aufwarten können. Ich war ziemlich überrascht, als ich nicht nur die Vorhersagen, sondern auch die Gründe für die Vorhersagen sah, Dinge wie die Halb-Heusler-Struktur, die heutzutage eine wirklich heiße Kristallstruktur für die Thermoelektrik ist.“
Er fügt hinzu: „Diese Studie zeigt, dass, wenn dieser Algorithmus früher eingesetzt würde, einige Materialien möglicherweise schon Jahre im Voraus entdeckt worden wären.“ Zusammen mit der Studie veröffentlichen die Forscher die Top 50 der thermoelektrischen Materialien, die durch den Algorithmus vorhergesagt wurden. Sie werden auch das Wort Embeddings veröffentlichen, das die Menschen benötigen, um ihre eigenen Anwendungen zu entwickeln, wenn sie beispielsweise nach einem besseren topologischen Isoliermaterial suchen wollen.
Als nächstes sagt Jain, dass das Team an einer intelligenteren, leistungsfähigeren Suchmaschine arbeitet, die es Forschern ermöglicht, Abstracts auf eine nützlichere Weise zu suchen.
Die Studie wurde vom Toyota Research Institute finanziert. Weitere Co-Autoren der Studie sind die Berkeley Lab Forscher John Dagdelen, Leigh Weston, Alexander Dunn und Ziqin Rong sowie die UC Berkeley Forscherin Olga Kononova.