ABOUT ME

-

  • Approaching the Hard-to-Diagnose 강의 수료
    UXUI 공부 2025. 7. 26. 23:39

     

     

     

    쓰리빌리언 2025 여름 유전체 강의의 3번째 코스.

    강의제작자인 모 박사님한테 이거 너무 어렵다고 했더니 이걸 들으셨다면 대학원생 수준이에요 하셨던 바로 그 코스 

     

    오늘은 Advanced: Approaching the Hard-to-Diagnose 코스를 듣고 배운 점을 적어보고자 한다.


     
    목차는 다음과 같다. (Introduction은 제외함)
     
    1. Utillty and Limitations of Exome and Genome Sequencing

    • WES/WGS의 유용성

    2. Advanced Variant Interpretation

    • in silico 툴을 활용한 deep intronic 변이 분석 방법
    • CNV 분석 방법
    • SV 분석 방법

    3. Making Sense of the Uncertain: How to Interpret a VUS Result

    • VUS가 왜 보고되는지와 유용성
    • 실제 VUS가 reclaasification 된 사례

    4. The Impact of Reanalyzing Unsolved Cases

    • 재분석의 유용성
    • 실제 재분석 사례

    5. Cutting-Edga Genomics

    • RNA seq 소개
    • Long-read sequencing 소개

     

    [Utillty and Limitations of Exome and Genome Sequencing]

    먼저 WES/WGS의 유용성에 대해 알아보자.

     

    WGS는 WES에 비해 더 넓은 범위를 확인할 수 있다. WES는 snv, indel, 일부 cnv, mt variant를 볼 수 있으나, WGS는 매우 높은 해상도의 cnv, sv, repeat expansion, mt variant를 볼 수 있음. WGS는 유전자 전체 non-coding regions에 걸친 커버리지를 가지기 때문에, 엑솜에서 neg가 나온 환자는 WGS를 해보는게 놓친 변이를 확인하는 대안이 될 수 있다.

     

    왜 WGS를 해야 하는가?

    보통 WGS 하는 환자들은 다른 검사를  해보고 WGS 하기에 크게 진단율이 증가하진 않는다(5~11% 상승하는 것으로 추정). 그러나 일반적인 snv/indel 단위의 변이가 아니라 다른 검사에서 확인하기 어려운 복잡한 변이(complex SV, repeat expansions)에서 원인 변이가 발견되는 비율이 크다. 이렇기에 WGS는 비싼 가격에도, 다른 검사에서 발견하지 못한 특수 변이를 발견할 수 있는 이점이 크다.

     

     

    [Advanced Variant Interpretation]

    다음은 매우매우 까다로운 deep intron variant, cnv, sv 해석 방법을 소개한다.

     

    in silico 툴을 활용한 deep intron variant 해석

    유전자 발현 과정 전반에 스플라이싱이 어떻게 관여하는지, 그리고 이 과정에서 문제가 생기면 왜 질병으로 이어지는지 복습

     

    엑손 1,2,3이 정확하게 연결되어 성숙한 mRNA를 만듦

    point mutation때문에 수용체 부위가 AG -> AC로 바뀜. 스플라이싱이 엑손 2를 인식하지 못하고 mRNA가 만들어지기 때문에 유전자의 기능 상실로 이어질 수 있음

     

    이런 결함(exon skipping, exon retraction, exon extension, pseudoexon creation, intron retention 등등) 희귀 유전질환의 주요 원인 중 하나이나, coding region 외부에서 발생하여 전통적인 분석 파이프라인으론 탐지가 어려움.

    이 변이들을 정확히 탐지하기 위해 쓰는 가장 강력한 도구가 바로 SpliceAI. 일루미나와 협력사들이 개발한 딥러닝 기반 모델이며 웹에서 직접 사용할 수 있다. 이 도구는 특정 변이가 스플라이싱 변화를 일으킬 확률을 DNA 시퀀싱 데이터로부터 직접 예측한다. 물론 단지 예측 도구일 뿐이지만, 좋은 정보를 제공하는 툴이다.

    여기서 파생된 SpliceVi란 시각화 툴이 있다 (옆팀 모 개발자님이 만드셨음)

     

    SpliceAI 점수 해석 방법: 유전자와 염색체 변이 정보를 입력하면 delta scores가 나타남

    Doner loss, Donor Gain 점수: 일반적으로 0.2를 초과하는 점수는 스플라이싱 변화 가능성이 높음

    Acceptor loss, Acceptor Gain 점수: 높으면 수용체 부위에 영향 미칠 가능성이 높음

    이런 값들을 UCSC genome browser 그려보면 유전체에 어떤 문제를 일으키는지 확인 가능

     

    한계가 있지만 볼 수 있는 변이: repeat expansions, uniparental disomy, low level somatic mosaic variants, copy number neutral sv

     

    repeat expansion: 해당 변이 일부는 신경바달 질환과 관련 있음.

    작은 repeat expansion은 볼 수 있으나 큰건 민감도가 종종 낮아, non-NGS Test가 권장됨

    다음은 UPD 사례

    UPD: 한쪽 부모로부터 변이 2개 다 물려받는 상황, NGS에서 검증할 수 있으나 trio 검사가 필요함

    다만 근친혼일 경우 ROH가 발생할 수 있어, 근친혼이 많은 국가에서 imprinting disorders를

    배제하기 위해 methylation sequencing을 수행하는 경우가 많음

    UPiD: 두 변이가 같을 때 | UPhD: 두 변이가 다를 때

     

    Somatic variant, mosaic variant도 엑솜 지놈의 한계 중 하나

    variant allele frecuency가 낮아 검출하기 어려움, 더 높은 커버리지 뎁스가 필요함

     

    이 상황에서 엑솜이 지놈보다 뛰어난 이유는 엑솜이 커버리지 뎁스는 더 깊기 때문 (즉 지놈은 얕게 다보고, 엑솜은 깊게 엑손만 본다)

    그래서 암 유전자 패널의 경우, 커버리지가 매우 낮은 암 변이를 포착하기 위해 커버리지 뎁스를 높이는 여러가지 방법을 사용함.

     

     

    CNV: DNA의 특정 구간이 삭제되거나 중복되는 변이

    CNV와 INDEL의 차이는 크기 차이, CNV는 최소 1,000 염기쌍 이상의 결실이나 중복, 또는 단일 엑손보다 큰 모든 크기의 변이

     

    전통적으로 CNV는 CMA나 MLPA 기술로 탐지함. 오랫동안 사용되었고 꽤 효과적인 1차 검사 방식이었음. 그러나 CNV는 WES, WGS로도 탐지할 수 있음. 특히 Gene Panel은 단일 엑손만큼 작은 CNV도 탐지할 수 있고, WES는 엑손 3개 이상의 CNV만 탐지 가능(이게 WES의 한계)

    WGS는 deadzone 내에 CNV의 bp가 있지 않는 한 한계가 없고 단일 엑손만큼 작은 CNV도 탐지 가능

     

    CNV 데이터는 어떻게 해석할까? CNV는 여러 유전자에 걸쳐 있을 수 있어 SNV/INDEL보다 해석하기 복잡함/

    유전자 발현의 영향이 질병으로 이어질지는 주로 2가지 용어로 설명됨

    1. Haploinsufficiency (반수체 기능 부전)

    야생형 대립 유전자의 단일 카피만으로는 정상 표현형을 보상하기에 불충분한 경우, CNV가 이걸 유발하는 유전자나 영역을 포함한다면 해당 CNV는 병원성으로 예상 가능

    2. Triplosensitivity (삼배체 민감성)

    야생형 대립유전자의 추가 카피가 질병을 유발하는 경우, 삼배체 민감성 유전자에서 dup이 확인된다면 해당 dup은 병원성 dup임

    하지만 dup에는 특별히 고려해야 할 사항이 있음

    dup는 크게 2가지로 나뉨

    tandem duplication (연속 중복): 중복 서열이 원래 서열 바로 옆에 존재 (약 80%)

    displaced duplication (전위 중복): 중복 서열이 지놈 내 다른 위치에 존재, 삽입 위치에 가끔 손상을 일으켜 lof 유발 (약 20%)

    WES에서는 CNV의 실제 bp를 볼 수 없어 이 두가지 구분 불가, 따라서 대부분 연속 중복이라고 가정하고 해석

    반면에 WGS는 이 둘 구분 가능

     

    ACMG에는 CNV 해석에 대한 가이드라인 5가지도 있음

    섹션 1: CNV가 유전적 요소를 포함하는가

    섹션 2: CNV 내의 유전자들을 평가하고 Haploinsufficiency, Triplosensitivity 둘 중 뭔지 확인

    섹션 3: CNV 크기 평가

    섹션 4: 이전 보고된 데이터를 평가

    섹션 5: de novo occurrences 사례 수준 데이터 확인

    이 다섯가지를 합산하여 -1~+1까지 총점 부여하여 변이의 양성도 73분류로 제공

     

    마지막으로 SV 해석

    SV는 가장 해석하기 복잡한 변이다.

    SV는 SNV, INDEL을 제외한 모든 변이를 일컬으며 CNV, INS, INV, Translocations 등도 포함됨. 오늘은 INV와 Translocations에 집중 설명해주셨다. SV는 기존의 depth of coverage 측정 방법으론 탐지하기 어려움. 유전 물질량에 변화가 없기 때문. 따라서 NGS 데이터에서 split reads, discordant reads를 관찰하여 수행함.

     

    숏리드 시퀀싱에서는 read가 Pair를 이루는데, 100~150bps의 각 유전 리드가 쌍으로 읽혀 서로 마주보고 있음. 위는 정상인, 아래는 환자인데, 환자에게 이 영역에 del이 있음 이 사람에게 시퀀싱을 진행하면 일부 시퀀싱 리드가 A, B 사이를 연결함 (그 사이가 del 이기에) 이걸 레퍼런스 지놈에 매핑하면 다른 부분이 나타나는데 그걸 비교하여 해석한다. 

     

    BND: 원래는 연속되어야 할 DNA 서열이 갑자기 끊기고, 예상치 못한 다른 서열이 나타남

    원래: AAATTTGGGCCCAAA

    변이: AAATTT [끊김] GGGXXXCCC [새로운 조각] AAA

     

    INV: DNA 조각의 순서는 그대로인데, 조각이 '뒤집어져' 있는 것처럼 보임

    원래: ABCDEFGHI

    변이: AB[FEDC]GHI (CDEF가 뒤집혀 FEDC가 됨)

     

    Translocation: 서로 다른 염색체에 있어야 할 DNA 조각들이 갑자기 붙어 있는 걸로 보임

    원래: 염색체 1: AAATTTGGGCCCAAA | 염색체 5: GGGXXXCCCAAA

    변이: 염색체 1: AAATTTGGG[XXX]CCCAAA | 염색체 5: GGG[잘려나감]CCCAAA

     

    현재 SV 해석에 대한 ACMG 가이드라인은 없지만, 몇가지 지침은 있고 보통 그걸 따라 해석한다.

    SV 해석의 한계점도 있는데 NGS deadzone에 BP가 위치할 경우 SV 탐색이 불가능함. 즉 SV는 상황에 따라 WGS로도 정확한 탐지가 어려운 경우가 있으며, 이 한계를 극복하게 위해 Long-read sequencing 이나 RNA sequencing으로 진행하기도 한다.

     

     

    [Making Sense of the Uncertain: How to Interpret a VUS Result]

    VUS를 이해하고 관리하는 접근법에 대해 안내.

    VUS란? 변이 해석 시점에 LP, LB로 분류하기에 충분한 근거가 없는 불확실한 변이를 뜻함. 유전자 검사에서 가장 흔하면서도 어려운 소견이다 .

     

    그럼 우리가 VUS를 보고하는 이유는? 의료진에게 원인 변이로 증명될 수 있는 변이 추적 기회를 제공하기 위함 (=즉 의료진이 해당 변이를 추적/관리할 수 있는 기회 제공) 그러나 이런 변이는 환자에게 혼란을 야기하기도 하고, 부적절한 임상적 결정을 유발할 수도 있으며, 많은 의료진이 환자에게 VUS를 설명하는 것을 어려워한다.

    그럼 왜 VUS의 설명이 어려울까? VUS는 베이지안스코어의 10~90까지 차지하는 넓은 범위의 불확실성을 나타냄. 베이지안 스코어는 ACMG 가이드라인을 좀 더 정량적으로 모델링하기 위해 만들어진 프레임워크인데, 이에 따르면 VUS는 10%~90%까지 넓은 범위를 뜻함. 이런 넓은 범위가 모호성을 야기하고 임상의의 판단을 어렵게 함. 다만 유전학에 대한 친숙도가 높은 의료진들은 더 많은 VUS를 보고받고 싶어하는데, 그들이 그 변이들을 추적할 수 있는 전문 지식이 있기 때문.

     

    그렇다면 VUS가 LP가 되는 케이스는?

    1. 증상이 매우 잘 맞는 경우
    2. 가족 검사에서 증상과 일관된 segregation을 보이는 경우
    3. 해당 증상과 변이가 관련있단 새 연구/논문이 발표되는 경우

    VUS가 LB가 되는 케이스는?

    1. 증상이 나타나는 가족이 해당 변이가 없는 경우
    2. 일반인에게서 해당 변이가 나타나는 경우
    3. 해당 변이가 정상 단백질 기능을 한다는 새 논문이 발표되는 경우

    이런 케이스들을 몇개 알아보자

    케이스1. Segregation 분석 후 재분류된 케이스

    케이스2. 부모 검사 후 재분류된 케이스

    케이스3. 의료진이 추가 정보를 제공하여 재분류된 케이스

     

    이렇게 VUS가 더 정확히 진단되기 위해서는 지속적으로 추가되는 환자/가족/논문 등의 정보가 필요하다. 또한 VUS는 환자의 임상적 진료 판단에 사용될 수 없다는 점을 유의하며 관찰해야한다.

     

     

    [The Impact of Reanalyzing Unsolved Cases]

    다음은 재분석의 효과를 안내하는 세션

    유전자 검사는 지속적으로 발전해왔지만, 여전히 많은 대규모 연구들은 WES/WGS의 평균 진단율이 50% 미만이라고 보고하고 있다. 즉 환자의 절반은 여전히 미진단 상태로 남아있다는 것이다. 이 문제의 원인은 무엇일까?

    1. 실제로 유전 질환이 아닐 수 있음: 이 경우는 임상의의 판단이 필요함
    2. 현재 분석기술의 한계로 아직 발견할 수 없는 변이
    3. 환자가 아직 질병과 연관되지 않은 유전자에서 질병 유발 변이를 가졌을 수 있음

    2,3번 때문에 미진단 환자에 대해 지속적인 재분석은 꼭 필요하다. 왜냐고? 새로운 질병 유전자가 발견되면 예전에 해석 불가했던 변이를 해석할 수 있다. 즉 기술의 발달에 따라 미진단이 진단이 될 수 있는 것이다.

     

    재분석과 유사 용어에 대해서도 알아보자.

    Re-evaluation: 정확한 방법을 명시하지 않고 다시 검토하는 일반적인 케이스

    Retesting: 환자 샘플을 다시 검사하는 것

    Reinterpretation: 새 정보에 기반하여 이전에 확인된 유전 변이를 재평가하는 것

    Reclassification: 변이가 새롭게 분류되는 것

    Reanalysis: 환자의 raw data를 다시 분석하는 것

     

    최근 논문에 따르면 Reanalysis는 초기 검사 이후 미진단된 환자의 진단율을 평균 10% 증가시켰다고 한다. 논문 업데이트, 분석 파이프라인 개선, 증상 업데이트 등등으로 재분석은 이루어지고 있다. 지난 10년간 유전체 데이터는 급격히 증가했고 이에 따라 유전자-질병 정보도 크게 증가하여 재분석에 도움이 되고 있다. 다만 재분석을 일상적으로 구현하는건 상당한 장벽이 있는데, 2018~2021년 동안 희귀질환에 대한 유전자검사는 55% 증가했지만 이 중 재분석은 5%밖에 되지 않았다. 원인은 다음과 같다.

    1. 재분석에 드는 리소스의 한계
    2. 체계적인 재분석을 지원하는 가이드라인 부재

    이런 문제를 해결하기 위해서는 재분석을 유전체 관리에 표준 부분으로 통합할 수 있는 정책적 지원이 필요하다…

     

    많은 전문가들이 2~3년마다 재분석을 수행하는 것이 비용 등을 고려하였을 때 합리적이라고 하지만, 언제 새 유전자-질병 정보가 업데이트될지는 알 수 없다. 따라서 지속적으로 자동화된 재분석이 가장 이상적인 접근 방식이기도 하다.

     

    다음은 우리의 자랑스러운 재분석 사례 몇가지 안내

    3달만에 미진단에서 진단 결과로 바뀌었던 사례이고, 새 논문의 발표로 재분석된 케이스 외에 2가지 사례로 재분석의 효과를 안내했다. 해당 내용은 웹사이트에도 공개되어 있고 이것 외에 몇가지 사례를 더 안내해 주셨다. 이렇게 재분석은 미진단 환자에 대해 지속적이고 효과적인 케어 방향이다. 다만 short-read sequencing의 내재적 한계는 재분석도 어쩔 수 없는데, 이러한 경우엔 long-read sequencing이나 RNA Seq과 같은 기술들이 필요할 수 있다. 다음 파트는 요거 설명~

     

     

    [Cutting-Edga Genomics]

    RNA seq 왜 필요한가? Short-read seq의 한계를 극복하고 환자를 진단하기 위해 필요함.

    어떻게 동작하는가? 세포에서 total RNA를 추출 -> RNA를 cDNA로 전환하여 라이브러리 구축 -> 시퀀싱하는 형태

    결과물은? Allele specific expression을 평가하는데 사용되는 variant calls을 얻음

    각 엑손의 커버리지 뎁스도 알 수 있고, 마지막으로 엑손-엑손 접합 정보도 알 수 있음. 이건 WES/WGS에선 못보는 추가 정보.

    이걸 사시미 플롯이라고 하는데 사시미를 닮아서 ㅎㅎ 어떤 엑손이 다른 엑손에 연결되어 있는지를 보여주는 선들이 있다.

     

    그럼 RNA seq의 효과는? 보통은 WGS 후 미진단된 환자에게 시행하며 여러 연구에서는 진단율을 10-15% 끌어올릴 수 있는 보완책이라고 안내한다. 예를 들어 deep intronic variant가 WGS에서 발견되면 그 변이를 RNA seq으로 정확히 평가할 수 있다.

    그 외에도 allele specific expression이 있는지, aberrant gene expression 이 있는지 평가할 수 있는게 장점.

     

    그 다음은 앞에서 나왔던 splicing 변이에서 RNA seq을 어떻게 활용하는지 사례를 안내한다.

    사례 중 유전자가 채취 조직에서 발현되지 않을 경우 RNA seq이 어려울 수 있다고 안내함 (즉 재료에 없으면 RNA seq 도 불가)

     

    RNA seq의 한계: 채취된 조직에서 원인 유전자가 잘 커버될지 미리 알 수 없음. 왜냐면 원인 유전자가 뭔지 모르는 상태에서 RNA seq을 하는 경우가 일반적이기 때문… 물론 WGS를 먼저했다면 후보 유전자들은 알 수 있다 (이래서 두개가 상호보완적이라고 하는건가)

     

    따라서 RNA seq을 WES/WGS와 보완하여 시행하는 것은 진단율 상승에 효과가 있으며, RNA seq + WGS는 가까운 미래에 first line test가 될 것으로 예상한다.

     

    마지막 강의는 Long-read sequencing... 감사하게도 이건 조금 아는 내용이라 눈물나게 반가웠다.

    Long-read sequencing이란? 지난 10년간 가장 일반적으로 사용된 Short-reed sequencing보다 더 긴 DNA 조각을 생성하는 시퀀싱.

    Short-reads는 보통 100-300bp, Long-reasds는 최대 25,000bp~100,000bp

    현재는 PacBio, Oxford Nanopore 2개 업체의 기기가 해당 데이터를 생산한다. 각각 고유 장점이 있으며 많은 임상 환경에서 빠르게 도입되고 있음. Long-read sequencing의 두가지 문제는 높은 오류율, 높은 비용이었지만 지난 1년동안 상당히 개선되어 임상기관에서 도입한 곳도 많음.

     

    장점: Short-read에서 커버되지 않는 서열 공백과 잘못된 정렬을 모두 연결하여 보여주기에 높은 정확성을 제공함. 상세히는 아래 5가지로 안내한다.

    1. Genome assembly 를 크게 향상
    2. 반복 요소를 시퀀싱하는데 도움을 줌
    3. 멀리 떨어진 변이를 페이징하여 복잡한 변이 이해에 도움
    4. 복잡한 구조 변이 식별 가능
    5. 후성 유전학적 변형 감지 가능

    19년 논문에서 롱리드가 이전에 해결 불가했던 다양한 구조 변이를 해결하는 것을 안내함. 25년 더 최근 연구에서는 기존에 식별 불가한 145개 변이 중 83%를 식별했으며 first-line test로 사용될 수 있음을 강조함. 또한 20x 커버리지가 96% 정확했다고 나옴.

     

    이제 몇가지 롱리드로 진단 사례 소개

    첫번째는 SMN1… Short-reads로는 안된다고 악명 높은 유전자임 ㅠ 이 사례에 long-read 를 시행하여 정확히 변이가 매핑되는걸 확인한 사례

    두번째는 pseudogene으로 short-read가 어려운 유전자를 Long-read를 사용하여 밝혀낸 사례

    세번째는 repeat expansion을 long-read로 정확히 진단한 사례

     

    이렇게 Long-read sequencing는 Short-read sequencing의 한계를 뛰어넘는 좋은 방식이나, 다만 아직 비용이 높고, 관련 DB도 적으며 아직도 더 개선되어야 할 점이 있는 기술이긴 하다. 하지만 잠재력이 엄청나기 때문에 분명 미래에는 1차 검사가 될 가능성이 높음!

     


     

     

    후기

    이번 파트는 진짜 어려웠다. 중간에는 너무 어려워서 두번 세번 되돌아가며 듣다가 제미나이한테 쉽게 좀 설명해달라고 하면서 봤다.

    쉽게 알려달랬는데 조금 어렵긴 했다

     

    그렇지만 왜 고객들이 종종 RNA seq 안하냐고 물어보는지, 왜 INV, BND, INS과 같은 SV들은 제브라에서 변이 표현할 때 형식도 다르고 분리해서 보여줘야 하는지 등등 평소에 궁금했던 부분들을 이제는 이해하게 되어서 정말 기쁘다. 앞으로 좀 더 고객과 기술을 이해하고 서비스를 만들어나가는데 큰 밑거름이 되지 않을까 ㅎㅎ (발표 자료 디자인 자주 하는데 이제는 이해하고 만들 수 있겠지... 너무 기쁘다)

     

    이런 멋진 강의를 만들어주신 마케팅팀과 임상팀에게 큰 감사와 박수를 전합니다👏 

    여러분처럼 멋진 좋은 동료와 함께 일하고 또 배울 수 있어 행복합니다 ㅎㅎ

Designed by Judy.