Text-Mining in 100 Jahren Literatur

Algorithmus entdeckt neue thermoelektrische Materialien

29. August 2019, 16:24 Uhr | Hagen Lang
Die Forscher entdeckten mittels Durchsuchen der Abstracts von Forschungsberichten (Text Mining) durch den Algorithmus Word2vec neue thermoelektrische Materialien.
© Berkeley Lab

Forscher des Berkeley Lab speisten 3,3 Millionen Abstracts wissenschaftlicher Arbeiten in einen Algorithmus namens »Word2vec« ein. Dieser sagte die Entdeckung neuer thermoelektrischer Materialien vorher und schlug neue Verbindungen als Kandidaten für thermoelektrische Materialien vor.

Anubhav Jain, Wissenschaftler an der Berkeley Lab Energy Storage & Distributed Resources Division erklärt: »Ohne ihm etwas über Materialwissenschaft zu sagen, lernte er Konzepte wie das Periodensystem und die Kristallstruktur von Metallen. Aber das wahrscheinlich Interessanteste, was wir herausgefunden haben, ist, dass man mit diesem Algorithmus Lücken in der Materialforschung schließen kann, Dinge, die Menschen studieren sollten, aber noch nicht studiert haben.«

Vahe Tshitoyan, Postdoc am Berkeley Lab, der jetzt bei Google arbeitet, war Hauptautor der Studie, Anubhav Jain, Kristin Persson und Gerbrand Ceder führten die Studie mit durch. Ceder sagt: »Das Papier stellt fest, dass Text Mining von wissenschaftlicher Literatur verborgenes Wissen aufdecken kann und dass reine textbasierte Extraktion wissenschaftliches Grundlagenwissen etablieren kann«.

Anbieter zum Thema

zu Matchmaker+
Word2vec
Das Periodensystem von Mendelejew befindet sich auf der rechten Seite. Die Darstellung der Elemente von Word2vec, projiziert auf zwei Dimensionen, auf der linken Seite.
© Berkeley Lag

Laut Tshitoyan war das Projekt durch die Schwierigkeit motiviert, den Sinn der überwältigenden Menge an veröffentlichten Studien zu verstehen. "In jedem Forschungsbereich gibt es 100 Jahre Forschungsliteratur, und jede Woche kommen Dutzende weitere Studien heraus", sagte er. "Ein Forscher kann nur auf einen Bruchteil davon zugreifen. Wir dachten: Kann maschinelles Lernen etwas tun, um all dieses kollektive Wissen unbeaufsichtigt zu nutzen - ohne die Anleitung von Humanforschern zu benötigen?"

Das Team sammelte die 3,3 Millionen Abstracts aus Papieren, die zwischen 1922 und 2018 in mehr als 1.000 Zeitschriften veröffentlicht wurden. Word2vec nahm jedes der etwa 500.000 verschiedenen Wörter in diesen Abstracts auf und verwandelte jedes in einen 200-dimensionalen Vektor oder eine Reihe von 200 Zahlen. »Was wichtig ist, ist nicht jede Zahl, sondern die Verwendung der Zahlen, um zu sehen, wie Wörter miteinander in Beziehung stehen«, sagt Jain, der eine Gruppe leitet, die an der Entdeckung und dem Design neuer Materialien für Energieanwendungen arbeitet.

»Zum Beispiel können Sie Vektoren mit Hilfe der Standard-Vektor-Mathematik subtrahieren. Andere Forscher haben gezeigt, dass, wenn man den Algorithmus auf unwissenschaftlichen Textquellen trainiert und den Vektor nimmt, der sich aus "König minus Dame" ergibt, man das gleiche Ergebnis wie "Mann minus Frau" erhält. Es findet die Beziehung heraus, ohne dass du ihr etwas sagst.« So wie das System die Gleichung "König - Dame + Mann" lösen könnte, könnte es herausfinden, dass für die Gleichung "ferromagnetisch - NiFe + IrMn" die Antwort "antiferromagnetisch" wäre. Word2vec lernte auch die Beziehungen zwischen den Elementen des Periodensystems, wenn der Vektor für jedes chemische Element auf zwei Dimensionen projiziert wurde.

Word2vec findet neue thermoelektrische Materialien

Neue preiswerte thermoelektrische Materialien aus reichlich vorhandenen, leicht zu verarbeitenden Rohstoffen werden zur Zeit sehr gesucht. Könnte Word2vec solche finden? Die Top 10 der vom Algorithmus vorgeschlagenen Kandidaten wurden von den Forschern untersucht. Ergebnis: alle für diese berechneten Leistungsfaktoren waren etwas höher als der Durchschnitt der bekannten Thermoelektrika, die besten drei hatten Leistungsfaktoren oberhalb des 95. Perzentils der bekannten Thermoelektrika.

Um die Prognosefähigkeit des Algorithmus in der Vergangenheit zu testen, wurden Abstracts bis zum Jahr 2000 eingegeben. Auch hier machte das System eine signifikante Anzahl Top-Vorhersagen, z.B. wurden drei der fünf besten Vorhersagen, die mit Daten trainiert wurden, inzwischen tatsächlich entdeckt, die zwei anderen sind toxisch, bzw. sehr selten.

Word2vec
(V.l.n.r.): Die Berkeley Lab Forscher Vahe Tshitoyan, Anubhav Jain, Leigh Weston und John Dagdelen analysierten mittels Machine Learning 3,3 million Abstracts von materialwissenschaftlichen Forschungsberichten.
© Marilyn Chung/ Berkeley Lab

Algorithmus spart Jahre

»Ich habe ehrlich gesagt nicht erwartet, dass der Algorithmus so prädiktiv für zukünftige Ergebnisse ist«, sagte Jain. »Ich hatte gedacht, dass der Algorithmus vielleicht beschreibend sein könnte für das, was die Leute vorher taten, aber nicht, dass er mit diesen verschiedenen Verbindungen aufwarten könnte. Ich war ziemlich überrascht, als ich nicht nur die Vorhersagen, sondern auch die Gründe für die Vorhersagen sah, Dinge wie die Halb-Heusler-Struktur, die heutzutage eine wirklich heiße Kristallstruktur für die Thermoelektrik ist.«

Er fügte hinzu: »Diese Studie zeigt, dass, wenn dieser Algorithmus früher eingesetzt würde, einige Materialien möglicherweise schon Jahre im Voraus hätten entdeckt werden können.« Zusammen mit der Studie veröffentlichen die Forscher die Top 50 der thermoelektrischen Materialien, die durch den Algorithmus vorhergesagt wurden.


Lesen Sie mehr zum Thema


Das könnte Sie auch interessieren

Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu UC Berkeley

Weitere Artikel zu Energietechnik

Weitere Artikel zu Echtzeit-/Embedded Software

Weitere Artikel zu Energieerzeugung

Weitere Artikel zu Künstliche Intelligenz (KI)