-
Building Skills in Genetic Interpretation 강의 수료UXUI 공부 2025. 7. 25. 17:43

쓰리빌리언 2025 여름 유전체 강의의 2번째 코스.
오늘은 Intermediated: Building Skills in Genetic Interpretation 코스를 듣고 배운 점을 적어보고자 한다.
목차는 다음과 같다. (Introduction은 제외함)
1. From FASTQ to Varint Calling and Annotaion- NGS 데이터 분석 워크플로우 알아보기
2. How to Use Public Database for Variant Interpretation
- 공공 DB 활용하여 유전체 분석하기
3. Interpreting SNVs and INDELs
- ACMG 가이드라인 룰 알아보기
4. Interpreting SNVs and INDELs Hands-On Practice: Interpreting Variants Through Case Examples
- 실제 분석 케이스 스터디
[From FASTQ to Variant Calling and Annotaion]

출처: 강의 자료 BCL 파일은 리드 정보가 포함된 FASTQ로 변환된다. 이걸 reference genome과 정렬시켜 BAM 파일로 저장. 그 다음 variant calling을 통해 VCF 파일로 변환된다.
BCL: 처음 시퀀서에서 생산되는 파일. 각 리드의 서열, 품질 점수, 관련 메타데이터 포함
FASTQ: 다운스트림 데이터 분석에 더 접근하기 쉽고 일반적으로 사용되는 파일 형식
BAM: FASTQ가 레퍼런스 지놈에 맵핑되면 나오는 결과물
VCF: variant calling을 통해 변환되는 파일 (Variant calling에는 도구들이 필요 GATK 등)
데이터 퀄리티를 결정하는 두가지 기준이 있다.
하나는 Read depth: 염기서열이 몇번 반복하여 읽혔는가? (보통 줄여서 depth)
다른 하나는 Coverage: 염기서열이 몇퍼센트나 읽혔는가?
(예: 3B-EXOME은 현재 depth: ~100X, coverage: 20X기준으로 98% 이상)
VCF에는 보통 WES에는 2만개의 SNV와 3천개의 INDEL이 식별된다.
이거 모두 주석을 달기는 매우 어려움. 그래서 추가 Tool을 사용함 (VEP, CAVA 등등) 이런 툴들이 다양한 변이가 어떻게 생물 기능에 영향을 미치는지 알려준다.
annotation을 하면, HGVS nomenclature라는 표기법으로 변이를 표기할 수 있음 (국제 표준)
변이 타입에 따라 HGVSc, HGVSg 등등으로 나눠 사용하는데, 이번에 VST 상품 업데이트하며 이 개념을 모르고 했어서 꽤 고생함 ㅎㅎㅎ
변이의 병원성을 평가하는 In silico tool: REVEL, 쓰빌에서 개발한 3Cnet(딥러닝 기반) SpliceAI 등등
[How to Use Public Database for Variant Interpretation]
다음으론 여러 DB를 활용해 임상적으로 중요한 변이를 식별하는 법에 대해 소개하는 파트.
대표적인 공공 DB는 아래와 같다.
gnomAD: 집단 내 대립유전자 빈도 데이터 제공, 다양한 대규모 시퀀싱 프로젝트의 데이터를 통합하여 만들어짐. 흔하 변이 배제에 사용
OMIM: 인간 유전자와 관련된 유전 질병을 목록화하여 유전자-질병 연관 정보 제공, 해당 변이가 환자의 증상과 일치하는 유전 질환과 관련 있는지 확인에 사용
ClinVar: 병원성 큐레이션 정보 제공. 변이의 병원성을 평가하는데 사용
PubMed: 수백만개의 임상생물학+과학 논문 정보 제공.
-> 이런 DB들은 모두 변이가 양성인지 병원성인지 여부 판단에 도움이 된다.
[Interpreting SNVs and INDELs]
이 파트는 기본적인 SNV, INDEL 변이 정보를 보고 평가하는 방법에 대해 배운다. 주요한 내용은 ACMG 가이드라인 소개 및 적용.
ACMG 배경과 목적: 2015년 발행된 논문을 배경으로 함. ACMG/AMP라는 학회에서 공동 합의로 낸 권고안. 서열 변이 해석을 표준화하기 위해 만들어짐. 이게 생기기 이전에는 실험실마다 판단 방식이 다 달라 혼선이 있었음.
ACMG 가이드라인은 서열 변이 분류를 위해 5단계 시스템을 도입함.
P, LP, VUS, LB, B
28가지 기준(criteria)에 대해 다양한 유형의 증거(evidence)를 평가한 다음 최종 분류를 결정하기 위한 일련의 규칙(rule)을 적용하여 이 분류를 달게 한다. 다양한 데이터를 기반으로 하는 28가지의 룰이 있으며(앞에 나온 DB들도 데이터에 속함) 카테고리화하여 소개한다.
[변이의 병리학 관련한 룰]
PVS1: 단백질 기능 상실(LoF) 변이로, 해당 유전자가 질병의 주된 메커니즘으로 알려진 경우
PM2: 대조군(일반 인구)에 변이가 없거나 매우 낮은 빈도로 나타나는 경우 적용
PP2: 양성 미스센스 변이율이 낮고 미스센스 변이가 흔한 질병 매커니즘일 때
BP1: 미스센스 변이가 질병 주요 매커니즘이 아닌 경우
BP7: 침묵 돌연변이(synonymous variant) 또는 인트론 변이로, 스플라이싱에 영향을 미치지 않는 경우
해당 룰 적용 사례들
더보기Trio(부모+환자) 분석을 하였는데 환자의 변이가 부모에게서 발견되지 않음(드노브 변이), 이 경우 PS2, PM6 룰이 붙게 됨
예를 들어 proband에서 sanger로 변이가 확인되나 부모에게선 Sanger로 변이가 확인되지 않았다. 그러나 WES/WGS/STR등을 수행하지 않으면 가정된 de novo로 간주함
PS4는 환자의 변이 유병률이 대조군의 유병률에 비해 현저히 클때 적용, PM3는 알려진 다른 병원성 변이와 in trans 상태로 변이가 검출될 때 적용, codon 1583의 류신-프롤린 미스센스 변이에 PM3 적용되는 과정 소개
PP1은 질병을 유발하는 것으로 확실히 알려진 유전자에서 여려 영향을 받은 가족 구성원 내 질병과 공동 유전에 대한 것
이 반대는 BS4로 변이가 건강한 가족 구성원에게 존재하거나 영향받은 구성원에게 없는 경우에 적용됨
PP4는 phenotype 또는 가족력이 유전 질병에 대해 매우 특이적인 경우 적용, BS2는 건강한 개인에게서 질병 유발 변이가 관찰되는 경우, BP5는 환자에게서 변이가 발견되더라도 이미 대안적인 분자 근거가 확인된 경우
[기능 및 계산 데이터 기반 룰]
PS3: 유전자 기능 연구에서 변이가 질병 관련 유전자의 알려진 병원성 메커니즘과 일치하는 영향, 반대는 BS3이며 매커니즘 일으키지 않는다고 연구에서 확인되었을 때 적용
PP3: 유전변이가 유해하다는 in silico 계산 도구가 있는 경우 적용. (여기 검증에 쓰이는 데이터들이 3Cnet, SpliceAI, REVEL, AlphaMissense,,) 반대는 BP4임
[신뢰할 수 있는 출처의 정보 기반 룰]
PP5: 임상 DB, 논문에서 나온 변이를 병원성으로 보고, 반대는 BP6이며 신뢰할 수 있는 출처에서 변이를 양성으로 보고한 경우.
다만 1차 데이터를 분석 기준에 포함시키는 일부 실험실에서 이중 계산이 이어져 분류 오류가 유발될 수 있단 점도 같이 고지한다.
이런 룰을 어케 종합하여 판단하냐, 체계적인 분류 시스템이 또 있음.
예를 들어 Pathogenic으로 분류하려면 PVS1 + PS 룰 한개, 또는 PS 룰 2개가 필수. 다른 등급에도 이런 식으로 시스템이 정해져 있음

현재 내부 변이 분석툴에는 이런 ACMG Classification을 시각화하여 판독을 돕고 있다 [Interpreting SNVs and INDELs Hands-On Practice: Interpreting Variants Through Case Examples]
이 챕터의 마지막은 케이스 스터디!
총 4가지 사례를 판독하는데, 붙어있는 룰의 근거를 DB를 탐색하며 확인하고 최종적으로 판독 결과를 안내한다.
더보기사례 1: ARID1B 유전자의 nonsense variant에 PVS1, PM2, PM6, PP5 적용 - Pathogenic으로 분류됨
사례 2: PKD1 유전자의 in-frame deletion variant에 PM2, PM4, PP5 적용 - VUS로 분류됨
사례 3: PRPF8 유전자의 missense variant에서 PM2, PM5, PP2, PP3 적용 -Likely pathogenic
사례 4; GBA1 유전자의 missense variant에서 PM2, PS3, PM1, PM3, PP3 적용 - Pathogenic으로 분류됨
이번 파트를 들으며 특히 잘 배웠다 생각한 부분은 역시 ACMG 가이드라인.
기존에는 'P'는 병원성, 'B'는 양성(비병원성) 정도로만 알고 있었는데, 이번에 각 ACMG 룰이 어떤 근거로 정립되었는지를 더 깊이 이해하게 되어 큰 도움이 되었다.
특히 ACMG의 분류 체계처럼, 룰들의 조합을 통해 최종 해석이 결정되는 구조를 알게되었다. 이런 부분은 내부 변이 분석 UI를 기획할 때도 큰 도움이 되는 파트이기도 하다. 앞으로는 사용자가 기획안을 볼 때 틀린 데이터를 보고 그걸 먼저 지적하지 않도록, UI 자체에 대한 논의/개선이 우선시되는 '정확한 시안'을 누구에게 물어보지 않고 직접 그릴 수 있는게 바로 도메인 지식 강화의 즐거움 아닐까. ㅎㅎ

두번째 강의도 수강 완료! 'UXUI 공부' 카테고리의 다른 글
Approaching the Hard-to-Diagnose 강의 수료 (2) 2025.07.26 Foundations of Genetic Testing 강의 수료 (0) 2025.07.19 Figma variables(변수) 실무 활용법 3가지 (0) 2024.07.15 Config 2024 키노트 요약 (0) 2024.06.28 Coursera - Design a User Experience for Social Good & Prepare for Jobs 수료 (0) 2024.04.17