Sie sind hier: HomeThemenSmart EnergySonstige

Text-Mining in 100 Jahren Literatur: Algorithmus entdeckt neue thermoelektrische Materialien

Forscher des Berkeley Lab speisten 3,3 Millionen Abstracts wissenschaftlicher Arbeiten in einen Algorithmus namens »Word2vec« ein. Dieser sagte die Entdeckung neuer thermoelektrischer Materialien vorher und schlug neue Verbindungen als Kandidaten für thermoelektrische Materialien vor.

Word2vec Bildquelle: © Berkeley Lab

Die Forscher entdeckten mittels Durchsuchen der Abstracts von Forschungsberichten (Text Mining) durch den Algorithmus Word2vec neue thermoelektrische Materialien.

Anubhav Jain, Wissenschaftler an der Berkeley Lab Energy Storage & Distributed Resources Division erklärt: »Ohne ihm etwas über Materialwissenschaft zu sagen, lernte er Konzepte wie das Periodensystem und die Kristallstruktur von Metallen. Aber das wahrscheinlich Interessanteste, was wir herausgefunden haben, ist, dass man mit diesem Algorithmus Lücken in der Materialforschung schließen kann, Dinge, die Menschen studieren sollten, aber noch nicht studiert haben.«

Vahe Tshitoyan, Postdoc am Berkeley Lab, der jetzt bei Google arbeitet, war Hauptautor der Studie, Anubhav Jain, Kristin Persson und Gerbrand Ceder führten die Studie mit durch. Ceder sagt: »Das Papier stellt fest, dass Text Mining von wissenschaftlicher Literatur verborgenes Wissen aufdecken kann und dass reine textbasierte Extraktion wissenschaftliches Grundlagenwissen etablieren kann«.

Word2vec Bildquelle: © Berkeley Lag

Das Periodensystem von Mendelejew befindet sich auf der rechten Seite. Die Darstellung der Elemente von Word2vec, projiziert auf zwei Dimensionen, auf der linken Seite.

Laut Tshitoyan war das Projekt durch die Schwierigkeit motiviert, den Sinn der überwältigenden Menge an veröffentlichten Studien zu verstehen. "In jedem Forschungsbereich gibt es 100 Jahre Forschungsliteratur, und jede Woche kommen Dutzende weitere Studien heraus", sagte er. "Ein Forscher kann nur auf einen Bruchteil davon zugreifen. Wir dachten: Kann maschinelles Lernen etwas tun, um all dieses kollektive Wissen unbeaufsichtigt zu nutzen - ohne die Anleitung von Humanforschern zu benötigen?"

Das Team sammelte die 3,3 Millionen Abstracts aus Papieren, die zwischen 1922 und 2018 in mehr als 1.000 Zeitschriften veröffentlicht wurden. Word2vec nahm jedes der etwa 500.000 verschiedenen Wörter in diesen Abstracts auf und verwandelte jedes in einen 200-dimensionalen Vektor oder eine Reihe von 200 Zahlen. »Was wichtig ist, ist nicht jede Zahl, sondern die Verwendung der Zahlen, um zu sehen, wie Wörter miteinander in Beziehung stehen«, sagt Jain, der eine Gruppe leitet, die an der Entdeckung und dem Design neuer Materialien für Energieanwendungen arbeitet.

»Zum Beispiel können Sie Vektoren mit Hilfe der Standard-Vektor-Mathematik subtrahieren. Andere Forscher haben gezeigt, dass, wenn man den Algorithmus auf unwissenschaftlichen Textquellen trainiert und den Vektor nimmt, der sich aus "König minus Dame" ergibt, man das gleiche Ergebnis wie "Mann minus Frau" erhält. Es findet die Beziehung heraus, ohne dass du ihr etwas sagst.« So wie das System die Gleichung "König - Dame + Mann" lösen könnte, könnte es herausfinden, dass für die Gleichung "ferromagnetisch - NiFe + IrMn" die Antwort "antiferromagnetisch" wäre. Word2vec lernte auch die Beziehungen zwischen den Elementen des Periodensystems, wenn der Vektor für jedes chemische Element auf zwei Dimensionen projiziert wurde.

Word2vec findet neue thermoelektrische Materialien

Neue preiswerte thermoelektrische Materialien aus reichlich vorhandenen, leicht zu verarbeitenden Rohstoffen werden zur Zeit sehr gesucht. Könnte Word2vec solche finden? Die Top 10 der vom Algorithmus vorgeschlagenen Kandidaten wurden von den Forschern untersucht. Ergebnis: alle für diese berechneten Leistungsfaktoren waren etwas höher als der Durchschnitt der bekannten Thermoelektrika, die besten drei hatten Leistungsfaktoren oberhalb des 95. Perzentils der bekannten Thermoelektrika.

Um die Prognosefähigkeit des Algorithmus in der Vergangenheit zu testen, wurden Abstracts bis zum Jahr 2000 eingegeben. Auch hier machte das System eine signifikante Anzahl Top-Vorhersagen, z.B. wurden drei der fünf besten Vorhersagen, die mit Daten trainiert wurden, inzwischen tatsächlich entdeckt, die zwei anderen sind toxisch, bzw. sehr selten.

Word2vec Bildquelle: © Marilyn Chung/ Berkeley Lab

(V.l.n.r.): Die Berkeley Lab Forscher Vahe Tshitoyan, Anubhav Jain, Leigh Weston und John Dagdelen analysierten mittels Machine Learning 3,3 million Abstracts von materialwissenschaftlichen Forschungsberichten.

Algorithmus spart Jahre

»Ich habe ehrlich gesagt nicht erwartet, dass der Algorithmus so prädiktiv für zukünftige Ergebnisse ist«, sagte Jain. »Ich hatte gedacht, dass der Algorithmus vielleicht beschreibend sein könnte für das, was die Leute vorher taten, aber nicht, dass er mit diesen verschiedenen Verbindungen aufwarten könnte. Ich war ziemlich überrascht, als ich nicht nur die Vorhersagen, sondern auch die Gründe für die Vorhersagen sah, Dinge wie die Halb-Heusler-Struktur, die heutzutage eine wirklich heiße Kristallstruktur für die Thermoelektrik ist.«

Er fügte hinzu: »Diese Studie zeigt, dass, wenn dieser Algorithmus früher eingesetzt würde, einige Materialien möglicherweise schon Jahre im Voraus hätten entdeckt werden können.« Zusammen mit der Studie veröffentlichen die Forscher die Top 50 der thermoelektrischen Materialien, die durch den Algorithmus vorhergesagt wurden.