PuSH - Publikationsserver des Helmholtz Zentrums München

Data-driven statistical learning to model cellular heterogeneity.

Daten-getriebene Modellierung von Heterogenität zwischen Zellen mittels Methoden aus der Statistik und dem maschinellen Lernen.

München, Technische Universität, Fakultät für Mathematik, Diss., 2016, 178 S.
Verlagsversion
In the last decades the advent of new experimental techniques has lead to a drastic increase of available data in biology. As a consequence the importance of mathematical methods to deduct scientifically relevant hypothesis from this big amount of data is steadily growing. A major challenge for bio-mathematics and bio-statistics therefore lies in both the adaption of existing methods to the, often very specific, properties of the measured data, and in the development of new methods to model these data. In this thesis we present methods from statistics and machine learning that are suitable to perform this task. The quest for new mathematical methods, thereby, is always pursued in conjunction with the goal to find new scientific insights into the investigated biological system. The biological focus of this work is the analysis of heterogeneity among cells: almost all cells of a living organism share the same DNA, yet there is a multitude of different cell types that may all perform different tasks within the organism. The aim of this thesis is to explore both the biological principles that lead to cellular heterogeneity, and to improve the identifiability of different cellular phenotypes with mathematical methods. For this purpose four different mathematical methods are implemented, tested and applied to biological data in order to draw new conclusions about cellular heterogeneity: (i) We propose a statistical method to correct for latent confounding effects on single cell transcriptomics data that are due to differences in cell size, which we show to have an impact on the inference of the underlying gene expression mechanism. (ii) By applying ordinary-differential-equation-based models on chromatin data we can show that histone acetylation (a certain class of chromatin modifications with known impact on transcriptional regulation) depends specifically on the chromatin status before these modifications occur. (iii) We apply transfer entropy to protein time-series data from hematopoietic stem and progenitor cells and find that the information transfer between two key transcription factors differs depending on the final cellular phenotype of the progenitor cells. (iv) By the help of machine learning methods we show that cellular phenotypes can be identified without the need for chemical fluorescent stains relying entirely on bright field and dark field images of the cells. To conclude, we anticipate the contributions of bio-mathematics and bio-statistics for the quest of deciphering and understanding the myriad biochemical processes (and the molecular species involved in them) that eventually lead to the emergence of cellular heterogeneity to become more and more important.
Das Auftreten neuer experimenteller Methoden führte in den letzten Jahren zu einer drastischen Zunahme verfügbarer, biologischer Daten geführt. Um aus dieser Datenmenge wissenschaftlich relevante Ergebnisse abzuleiten, wird es daher immer wichtiger geeignete mathematische und rechnergestützte Methoden zu finden. Eine der größten Herausforderungen im Bereich der Biomathematik und Biostatistik ist es daher, bestehende Methoden an die oft sehr spezifischen Eigenschaften der Daten anzupassen und zusätzlich neue Methoden für die Modellierung dieser Daten zu finden. In dieser Arbeit werden Methoden aus der Statistik und dem maschinellen Lernen vorgestellt, die dieser Aufgabe gerecht werden. Dabei wird die Entwicklung neuer mathematischer Methoden stets mit dem Versuch verknüpft, wissenschaftliche Einblicke in das untersuchte biologische System zu gewinnen. Der biologische Fokus dieser Arbeit liegt auf der Analyse von Heterogenität zwischen Zellen: die Zellen eines lebenden Organismus besitzen fast alle die gleiche DNA, dennoch findet man eine Vielfalt an verschiedenen Zelltypen vor, die jeweils andere Aufgaben im Organismus erfüllen. Ziel dieser Arbeit ist es, mit mathematischen Methoden sowohl die Ursachen dieser Heterogenität zu analysieren, als auch die Identifizierung von verschiedenen Zellzustände zu verbessern. Dazu werden vier verschiedene mathematische Methoden implementiert, getestet und auf biologische Daten angewandt, um so neue Rückschlüsse über das Auftreten von Heterogenität von Zellen ziehen zu können: (i) Es wird eine statistische Methode vorgestellt mit der bei Einzelzell-Transcriptomics Daten auftretende latente Störfaktoren korrigiert werden können, welche durch Unterschiede in der Zellgröße zustande kommen und welche die Inferenz des zugrunde liegenden Genexpressionsmechanismus beeinflussen. (ii) Durch das Anwenden von Modellen basierend auf gewöhnlichen Differentialgleichungen auf Chromatindaten wird gezeigt dass Histonacetylierungen (eine spezielle Klasse von Chromatinmodifikationen, die für die Regulation der Genexpression von Bedeutung sind) spezifisch vom Zustand des Chromatins vor Eintreten der Modifizierung abhängen. (iii) Mit Hilfe der Transferentropie werden zeitaufgelöste Proteindaten von hämatopoetischen Stamm- und Vorläuferzellen untersucht und wird festgestellt, dass sich der Informationsfluss zwischen zwei wichtigen Transkriptionsfaktoren abhängig vom finalen Phänotypen der Zellen unterscheidet. (iv) Durch die Anwendung von Methoden aus dem Bereich des maschinellen Lernens wird gezeigt, dass verschiedene Zellphänotypen ohne zusätzliche chemische Farbstoffe klassifiziert werden können. Mit Blick auf die Zukunft kann davon ausgegangen werden, dass die Rolle der Biomathematik für die Erforschung der zahlreichen biologischen Prozesse, die letztlich zu Heterogenität zwischen Zellen führen, immer wichtiger werden wird.
Weitere Metriken?
Zusatzinfos bearbeiten [➜Einloggen]
Publikationstyp Sonstiges: Hochschulschrift
Typ der Hochschulschrift Dissertationsschrift
Quellenangaben Band: , Heft: , Seiten: 178 S. Artikelnummer: , Supplement: ,
Hochschule Technische Universität
Hochschulort München
Fakultät Fakultät für Mathematik
Begutachtungsstatus