0c67270c24f802ef9521b9d080dcd0ee Assembling Over 1,000 Human Genomes Affordably: New Method Powers Medicine's Future

(SeaPRwire) –   HANGZHOU, China, 3. April 2026 — Ein Forschungsteam unter der Leitung von Zhen-Xing Endowed Professor Jian Yang an der School of Life Sciences, Westlake University, veröffentlichte zusammen mit Kooperationspartnern am 1. April ihre neuesten Erkenntnisse in Nature. Die Studie entwickelte innovativ eine Pangenom-informierte Genomassemblierungs-(PIGA)-Methode. Durch die Kombination einer kostengünstigen hybriden Sequenzierungsstrategie aus langen und kurzen Reads gelang es dem Team, ein Pangenom für über tausend Individuen zu konstruieren. Diese Errungenschaft durchbricht die Grenzen früherer Pangenome mit kleinen Stichproben und bietet eine entscheidende grundlegende Infrastruktur für die medizinische und populationsgenetische Forschung.

Seit dem Abschluss des Humangenomprojekts dienen einzelne lineare Referenzgenome (wie GRCh38) als Grundlage für die biomedizinische Forschung. Die genetischen Hintergründe menschlicher Individuen variieren jedoch erheblich, und ein einzelnes Referenzgenom kann das volle Ausmaß der genetischen Vielfalt über Populationen hinweg nicht erfassen. Dies führt dazu, dass komplexe Formen genetischer Variationen, wie Strukturvarianten (SVs) und Tandem-Repeats (TRs), in traditionellen Analysen übersehen werden. Um dieser Herausforderung zu begegnen, schlugen Forscher das Konzept eines Pangenoms vor – eine Sammlung von Genomsequenzen, die die genetische Vielfalt einer Population repräsentieren.

Während Fortschritte in der Lang-Read-Sequenzierung die Assemblierung hochwertiger diploider Genome ermöglicht haben, haben die hohen Kosten der Sequenzierung die Stichprobengrößen früherer Pangenome auf nur wenige Dutzend Individuen begrenzt. Solch kleine Stichprobengrößen reichen nicht aus, um die Häufigkeit genetischer Varianten in Populationen genau abzuschätzen oder seltene Varianten und hochkomplexe Regionen aufzulösen. Daher ist die Entwicklung einer kostengünstigen Pangenom-Konstruktionsstrategie für große Populationen zu einer dringenden Anforderung geworden, um die funktionellen Auswirkungen komplexer Varianten aufzuklären und die klinische Diagnostik zu verbessern.

Das Team von Yang widmet sich seit langem der methodischen Forschung in der statistischen Genetik, Genomik und der Big-Data-Analyse menschlicher komplexer Merkmale. Durch die Entwicklung effizienter Berechnungsmethoden hat das Team stets zentrale Herausforderungen bei der Verarbeitung großer genomischer Datenmengen bewältigt. Vom Team entwickelte Analysetools wie GCTA-GREML, SMR und gsMap wurden weltweit weit verbreitet. Um die Herausforderung beim Aufbau großer Pangenome zu bewältigen, entwickelte das Forschungsteam den Pangenom-informierten Genomassemblierungs-(PIGA)-Workflow (Abb. 1). Im Gegensatz zu De-novo-Assemblierungsansätzen, die auf Sequenzierungsdaten einzelner Proben basieren, verwendet PIGA einen Pangenom-gesteuerten Rahmen, um Sequenzinformationen über die gesamte Kohorte hinweg zu integrieren. Es nutzt eine kostengünstige hybride Sequenzierungsstrategie, die auf modest-coverage Illumina Short-Read- und PacBio Long-Read-Ganzgenomsequenzierungs-(WGS)-Daten basiert. Dieser Ansatz reduziert die Sequenzierungskosten erheblich und ermöglicht gleichzeitig die Assemblierung von Genomen aus Daten mit moderater Abdeckung, wodurch ein praktischer neuer technischer Weg für zukünftige hybride Sequenzierungsstudien im Populationsmaßstab bereitgestellt wird.

Durch die Anwendung dieser Methode konstruierte das Forschungsteam das bisher größte menschliche Pangenom, bestehend aus 1.116 diploiden Genomen mit einem mittleren Qualitätswert (QV) von 46. Das Pangenom identifizierte 405,3 Millionen Basenpaare (Mb) nicht-referenzierter Sequenzen, die in den aktuellen Referenzen (GRCh38 und CHM13) fehlen. Bemerkenswert ist, dass das Team 26,2 Mb dieser Sequenzen als funktionelle genische und vorhergesagte regulatorische Elemente annotierte, was unser Verständnis der nicht-referenzierten Sequenzen im menschlichen Genom erheblich erweitert.

Abb. 1. Der Pangenom-informierte Genomassemblierungs-(PIGA)-Workflow.

Unter Nutzung des groß angelegten Assemblierungsdatensatzes erstellten die Forscher einen umfassenden Katalog genetischer Variationen. Zusätzlich zu 35,4 Millionen kleinen Varianten erfasste der Katalog eine breite Palette komplexer Varianten, darunter 110.530 SVs, 485.575 TRs und 0,86 Millionen verschachtelte Varianten, die in nicht-referenzierten Sequenzen eingebettet sind.

Mithilfe dieses Katalogs charakterisierte das Team medizinisch relevante Variationen auf mehreren Ebenen (Abb. 2), darunter Gen-verändernde SVs, pathogene TR-Expansionen, Gencluster-Variationen und HLA-Gen-Haplotypen. Diese Ergebnisse deuten darauf hin, dass der 1KCP-Variantenkatalog eine wichtige Referenz für das klinische Screening pathogener Mutationen darstellt.

Durch die Integration von Genexpressionsdaten führte das Team ein Pan-Varianten-Expressions-Quantitative-Trait-Loci-(eQTL)-Mapping durch. Sie identifizierten 3.256 eQTLs, die komplexe Varianten (SVs, TRs und verschachtelte Varianten) umfassen, und klärten die regulatorische Komplexität dieser vielfältigen Variantentypen auf.

Zusammenfassend lässt sich sagen, dass diese Studie unser Verständnis komplexer genetischer Varianten und ihrer funktionellen Implikationen erheblich vorantreibt und ein neues Paradigma für die Forschung zur menschlichen Gesundheit und Pangenomstudien bei anderen Arten etabliert.

Doktorand Yifei Wang und Forschungsassistenzprofessor Zhongqu Duan sind die Co-Erstautoren der Studie. Professor Jian Yang ist der Letztautor. Diese Arbeit wurde von der National Natural Science Foundation of China, dem National Key R&D Program, dem Zhejiang “Pioneer & Leading Goose” Program und der New Cornerstone Science Foundation unterstützt. Die Rechenressourcen wurden vom High-Performance Computing Center an der Westlake University bereitgestellt.

Die Forschungsgruppe von Professor Jian Yang widmet sich der Entwicklung statistischer Genetik- und Bioinformatikmethoden. Durch die tiefgehende Analyse genomischer und multi-omischer Daten aus groß angelegten Populationskohorten wollen sie die genetische Architektur und molekularen Mechanismen komplexer Krankheiten aufdecken und diese Entdeckungen in neuartige Strategien für Krankheitsdiagnose, Wirkstoffentdeckung und Präzisionsmedizin umsetzen.

Verwandte Links:
Link zur Veröffentlichung: https://www.nature.com/articles/s41586-026-10315-y
Website des Jian Yang Labors: https://yanglab.westlake.edu.cn/

Medienkontakt:
Chi Zhang
media@westlake.edu.cn
+86-15659837873

QUELLE Westlake University

Der Artikel wird von einem Drittanbieter bereitgestellt. SeaPRwire (https://www.seaprwire.com/) gibt diesbezüglich keine Zusicherungen oder Darstellungen ab.

Branchen: Top-Story, Tagesnachrichten

SeaPRwire liefert Echtzeit-Pressemitteilungsverteilung für Unternehmen und Institutionen und erreicht mehr als 6.500 Medienshops, 86.000 Redakteure und Journalisten sowie 3,5 Millionen professionelle Desktops in 90 Ländern. SeaPRwire unterstützt die Verteilung von Pressemitteilungen in Englisch, Koreanisch, Japanisch, Arabisch, Vereinfachtem Chinesisch, Traditionellem Chinesisch, Vietnamesisch, Thailändisch, Indonesisch, Malaiisch, Deutsch, Russisch, Französisch, Spanisch, Portugiesisch und anderen Sprachen.