Automatische Gewinnung enzymbezogener Informationen aus der wissenschaftlichen Primärliteratur

Söhngen, Carola

Die vorliegende Dissertation stellt Lösungen vor, wie durch die Adaption von Verfahren der Computerlinguistik und der automatisierten Wissensgewinnung der Datenfundus der BRaunschweig ENzyme DAtabase (BRENDA) erweitert wird. Mit den in dieser Arbeit neu- und weiterentwickelten Methoden können automatisiert relevante Referenzen gefunden werden. Das gemeinsame Auftreten von Enzymen und Krankheiten wird mit hohem Erfolg (F1 Maß 0,89) erfasst. Nachgelagert wird die semantischen Beziehungen von kookkurrierenden Enzymen und Krankheiten anhand der Anwendung von Methoden des maschinellen Lernens klassifiziert. Durch die Integration der so gewonnen Erkenntnisse in das BRENDA Informationssystem kann eine stetig erweiterte Auswahl von momentan über 500.000 referenzierten Publikationen, geordnet nach Enzymen und Krankheiten, für die sie relevant sind, abgefragt werden. Ermöglicht wird eine gezielte Suche nach Referenzen, die wichtige Aussagen zur kausalen Verknüpfungen von Enzymen und Krankheiten, sowie der diagnostischen Verwendung und therapeutischen Implikation von Enzymen enthalten können ebenso wie nach Referenzen, die den aktuellen Stand der Forschung an einem Enzym und seiner Verbindung zu einer Krankheit widerspiegeln. Die automatisierte Erfassung von Zugangsnummern für Proteinsequenzen und -strukturen in biologischen Datenbanken aus Referenzen ermöglicht die Verknüpfung zu weiteren Informationsquellen und auch den Ringschluss vom Enzym zur Krankheit und zu aktuellen Forschungsansätzen neuer Therapien, über die organismusspezifische Sequenz und Struktur des Enzyms.

This thesis introduces solutions to broaden the spectrum of data gained through text mining for the BRaunschweig ENzyme DAtabase (BRENDA) knowledge system. In a multi-step procedure relevant publications containing information on enzymes and diseases are retrieved. This is accomplished by adapting methods of automatic information retrieval originated by computational linguistics. First the abstracts of publications were successfully screened (F1 score 0.89) for the co-occurrence of enzymes and diseases within one title or one sentence. This is followed by the classification of all co-occurring enzymes and diseases according to their semantic relation by the means of machine learning. By the integration of the results into the BRENDA information system information on a constantly growing number of currently more than 500,000 relevant references with a enzyme and disease background are available. This collection is fully searchable and query results are clearly presented by arranging all retrieved references connected to an EC number and a disease. Furthermore a systematic search enables the retrieval of references that contain statements on the causal connection between enzymes and diseases and on enzymes that are used in the diagnostic process of a disease or enzymes which are drug targets or components of drugs to combat a certain disease. In addition references can be found which reflect the status of the ongoing research on enzymes which might be connected to diseases or important in future therapeutic approaches. The automatic extraction of life science database accession numbers for protein sequences and structures out of full-text references enables the ring-closure from the enzyme to the disease and the organism specific enzyme sequences addressed in the reference and the currently investigated research approaches towards new insights on disease mechanisms and therapies.

Vorschau

Zitieren

Zitierform:

Söhngen, Carola: Automatische Gewinnung enzymbezogener Informationen aus der wissenschaftlichen Primärliteratur. 2011.

Zugriffsstatistik

Gesamt:
Volltextzugriffe:
Metadatenansicht:
12 Monate:
Volltextzugriffe:
Metadatenansicht:

Details anzeigen

Rechte

Nutzung und Vervielfältigung:
Alle Rechte vorbehalten

Export