PuSH - Publication Server of Helmholtz Zentrum München

Integrating machine learning approaches into network science: Exemplary applications and novel algorithms.

Regensburg, Universität Regensburg, Institut für Biophysik und physikalische Biochemie, Diss., 2011, 160 S.
Full text
as soon as is submitted to ZB.
The goal of this PhD thesis is to exemplify how methods to model complex systems, mainly the language of complex network science, and machine learning approaches can profit from each other. Thereby it deals with several projects arising from concrete questions to different complex systems from multiple fields of science. An introductory chapter explains important clustering algorithms and blind source separation (BSS) techniques. Then it reviews the basic concepts of complex network science, and in particular discusses community detection, i.e. the identification of more densely interconnected subgraphs, the classical interface between the two disciplines. Following the trend beyond the well studied standard graphs in the network field, chapter 2 focuses on network analysis in the presence of self-loops. It develops two measures of node centrality that are applicable to weighted directed graphs and explicitly incorporate the role of such self-loops. Our main application comes from empirical economics and focuses on the networks of commodity flows between business sectors. Applying our centrality measures to such data from a wide set of countries we uncover salient characteristics of the structures of these national economies. Comparison of the countries by a clustering according to their sectors’ centralities then reveals geographical proximity and similar developmental status. Chapter 3 goes beyond network analysis and exemplifies how to bridge the gap between interaction topology and system dynamics. It investigates the connection between the topology of hierarchical networks and the solutions of according dynamical systems, when the dynamics are modeled by two types of differential equations. These are generic models for biological signal transduction and therefore of high relevance for mathematical biology. For given topology the system's dynamics are determined by an interplay of the single parameters. We describe this by algebraic expressions which we call effective parameters and demonstrate how they can be directly inferred from the interaction topology only. Further, we discuss the impact of the effective parameters on parameter estimation. Matrix factorization techniques provide efficient tools for the detailed analysis of large-scale biological and biomedical data. While underlying algorithms usually work fully blindly, chapter 4 proposes the GraDe algorithm, the first matrix factorization algorithm that is based on prior knowledge. Prior knowledge is thereby encoded in a weighted directed graph model. We prove identifiability in our factorization model, where we pose constraints that are based on the novel concept of graph-delayed correlations. In simulations with artificial signals and real-world data, we demonstrate applicability and robustness of the proposed approach. Applying GraDe to gene-expression data from a time-course microarray experiment on IL-6 stimulated hepatocytes results in new biological insights. Chapter 5 develops a novel community detection method that allows detection of overlapping communities in k-partite graphs, networks with nodes of different kinds. It determines for each node a fuzzy degree-of-membership to each community and additionally estimates a weighted backbone graph connecting the communities. The algorithm is fast and efficient, mimicking the multiplicative update rules often employed in non-negative matrix factorization. We demonstrate its applicability in the real-world example of a gene-disease-protein complex graph. Employing functional annotations we show that the detected communities and their connecting backbone are biologically reasonable. The final chapter formulates perspectives for novel developments in the BSS field. The estimation of latent causes in biological systems is an upcoming challenge and crucial for the interpretation of any systems biology experiment. We demonstrate that for special cases of metabolic and gene regulatory networks this task leads to linear BSS problems and show how novel non-linear mixing models arise from more complex situations. By reconstructing latent causes from artificial data we give proof of principles that this strategy is indeed practicable.
Das Ziel dieser Doktorarbeit ist es, beispielhaft zu zeigen, wie Methoden zur Modellierung komplexer Systeme - vor Allem die Sprache komplexer Netzwerke - und maschinelle Lernansätze voneinander profitieren können. Dabei behandelt sie mehrere Projekte, die aus konkreten Fragen an verschiedene komplexe Systeme aus unterschiedlichen wissenschaftlichen Disziplinen entspringen. Ein einführendes Kapitel erklärt wichtige Clusterverfahren und Methoden zur blinden Quellenseparation (BSS). Anschließend führt es die grundlegenden Konzepte in der Erforschung komplexer Netzwerke ein. Es diskutiert insbesondere die Identifizierung von Communites, also dichter verknüpfter Subgraphen, was den klassischen Schnittpunkt der beiden Felder darstellt. Dem Trend in der Netzwerk-Community folgend, über die gut verstandenen Standard-Graphen hinauszugehen, konzentriert sich Kapitel 2 auf Netzwerkanalysen in Gegenwart von Self-loops. Es werden zwei Knotenzentralitätsmaße entwickelt, die in gewichteten, gerichteten Graphen mit Self-loops anwendbar sind. Unsere Hauptanwendung, die Analyse von Güterstrom-Netzwerken zwischen Wirtschaftssektoren, kommt aus den empirischen Wirtschaftswissenschaften. Durch die Anwendung unserer Zentralitätsmaße auf solche Daten aus einer Vielzahl von Ländern decken wir die hervorstechenden Merkmale der Struktur der verschiedenen nationalen Volkswirtschaften auf. Der Vergleich der Länder durch ein Clustering auf Basis der Sektorzentralitäten spiegelt geographische Nähe und ähnlichen Entwicklungsstatus wider. Kapitel 3 geht über Netzwerkanalysen hinaus und stellt beispielhaft den Schritt von der Netzwerkarchitektur zur Systemdynamik dar. Es untersucht den Zusammenhang zwischen der Topologie hierarchischer Netze und den Lösungen entsprechender dynamischer Systeme, wenn die Dynamik durch zwei Arten von Differentialgleichungen modelliert wird. Diese Systeme sind generische Modelle für biologische Signaltransduktion und damit von hoher Relevanz für die mathematische Biologie. Für eine gegebene Topologie ist die Dynamik in solchen Systemen durch das Zusammenspiel der Einzelparameter bestimmt. Wir beschreiben dies durch algebraische Ausdrücke, die wir effektive Parameter nennen, und zeigen wie man diese direkt aus der Topologie der Wechselwirkungen ableiten kann. Weiterhin diskutieren wir die Bedeutung der effektiven Parameter für die Parameterschätzung. Matrixfaktorisierungstechniken sind effiziente Werkzeuge zur detaillierten Analyse biologischer und biomedizinischer Hochdurchsatzdaten. Während die zugehörigen Algorithmen in der Regel vollständig blind arbeiten, stellen wir in Kapitel 4 den GraDe-Algorithmus vor, die erste Faktorisierungstechnik, die auf Vorwissen beruht. Vorwissen wird dabei in einem gewichteten, gerichteten Graphen kodiert. Wir beweisen die Identifizierbarkeit in unserem Mischmodell, in dem wir Forderungen stellen, die auf dem neuen Konzept Graph-verzögerter Korrelationen beruhen. In simulierten und realen Daten demonstrieren wir Anwendbarkeit und Robustheit des Ansatzes. GraDe führt in der Analyse von Genexpressionsdaten aus Microarray-Experimenten zu Il-6-stimulierten Hepatozyten zu neuen biologischen Erkenntnissen. Das fünfte Kapitel entwickelt einen neuen Community-detection Algorithmus, der die Identifizierung überlappender Communities in k-partiten Graphen, also Graphen mit verschiedenen Arten von Knoten, erlaubt. Dieser bestimmt für jeden Knoten eine fuzzy-Zugehörigkeit zu jeder Community und schätzt darüber hinaus einen gewichteten k-partiten Backbone-Graphen, der die extrahierten Communities verbindet. Der Algorithmus verwendet in Analogie zu Ansätzen für die nichtnegative Matrixfaktorisierung multiplikative Updateregeln und ist damit schnell und effizient. Die Anwendbarkeit wird am Beispiel eines Gen-Krankheiten-Proteinkomplex-Graphen demonstriert. Mittels funktioneller Annotationen zeigen wir, daß die Communities und auch der verbindende Backbone biologisch sinnvoll sind. Das abschließende Kapitel formuliert Perspektiven für neue Entwicklungen in der BSS: Die Schätzung versteckter Einflüsse in biologischen Systemen ist eine anstehende Herausforderung und entscheidend für die Auswertung systembiologischer Experimente. Wir zeigen, daß diese Aufgabe in Spezialfällen metabolischer und genregulatorischer Netzwerke zu einem linearen BSS-Problem führt, und leiten ab, wie komplexere Situationen zu neuartigen, nichtlinearen Mischmodellen führen. Exemplarisch zeigen wir durch die Rekonstruktion versteckter Einflüsse aus artifiziellen Daten, dass dieser Ansatz in der Tat realisierbar ist.
Additional Metrics?
Edit extra informations Login
Publication type Other: Thesis
Thesis type Doctoral thesis
University Universität Regensburg
University place Regensburg
Faculty Institut für Biophysik und physikalische Biochemie
Reviewing status