계통 나무를 짓는 방법은 무엇입니까?
• 계통수
는 다른 계통 간의 관계를 시각적으로 표현한 것입니다.
생물, 공통 조상에서 다른 자손까지 진화의 시간 경과를 보여줍니다.
• 서열 정렬에 의해 밝혀진 관련 생물학적 서열 간의 유사성과 차이는 종종 계통 나무의 맥락에서 간소화되고 시각화되어야 합니다. 따라서 분자계통학은 바이오인포매틱스의 기본적인 측면이다.
• 분자계통학은 생물체의 진화적 관계에 관한 정보를 얻기 위해 주로 DNA 서열에서 유전적, 유전적 분자의 차이를 분석하는 계통발생학의 분야입니다.
• 생물체의 생물학적 기능과 분자 메커니즘의 유사성은 종이 공통 조상에서 파생되었음을 강력하게 시사합니다. 분자계통학은 분자의 구조와 기능, 그리고 시간이 지남에 따라 어떻게 변화하는지를 이용하여 이러한 진화의 관계를 추측한다.
• 이러한 분석을 통해 종간 다양성이 달성된 과정을 결정할 수 있습니다. 분자 계통 분석의 결과는 계통 나무로 표현됩니다.
DNA 또는 단백질 서열 형태의 분자 데이터는 생물이 진화함에 따라 시간이 지남에 따라 유전 물질에 돌연변이가 축적되어 표현형의 변화를 일으키기 때문에 기존 생물의 진화에 관한 매우 유용한 관점을 제공할 수도 있습니다. 유전자는 축적된 돌연변이를 기록하는 매체이기 때문에 분자의 화석 역할을 합니다. 많은 근연 생물의 분자 화석을 비교 분석함으로써 유전자, 심지어 생물의 진화의 역사를 밝힐 수 있습니다.
그러나, 분류군의 수에 따라 해의 수가 폭발적으로 증가하고, 보다 큰 분류군의 샘플링을 사용함으로써 조사할 수 있는 진화 생물학에서 방대한 수의 새로운 의문이 생기기 때문에, 계통 발생의 추론 어려운 노력으로 유명합니다.
그러나 컴퓨팅 및 일련의 바이오인포매틱스 툴의 개발과 사용을 통해 실제 컴퓨팅 시간에 대규모 데이터 세트를 분석하여 높은 확률로 최적 또는 최적에 가까운 설루션을 생성할 수 있게 되었습니다. 이러한 경향에 대응하여 계통 정보학(즉, 계산 계통 발생학)의 현재 연구 중 상당수는 보다 효율적인 휴리스틱 접근법의 개발에 초점을 맞추고 있습니다.
계통 분석의 기본 절차에는 다음이 포함됩니다.
1. 데이터 세트를 조립하고 배치
• 첫 번째 단계는 원하는 단백질 또는 DNA 서열을 확인하고 다른 관련 서열로 구성된 데이터 세트를 조립하는 것입니다.
• 원하는 DNA 서열은 NCBI BLAST 또는 유사한 검색 도구를 사용하여 검색할 수 있습니다.
• 배열을 선택하고 검색하면 여러 배열 정렬이 만들어집니다.
• 여기에는 상동성 영역을 식별하기 위해 행렬에 일련의 배열을 배치하는 것이 포함됩니다.
• ClustalW, MSA, MAFFT, T-Coffee와 같은 특정 분자 데이터 세트에 대해 여러 시퀀스를 실행하도록 설계된 많은 웹 사이트 및 소프트웨어 프로그램이 있습니다.
2. 계산 방법과 확률 모델을 사용하여 배열에서 계통수를 구축 (추정)
• 계통 나무를 구축하려면 통계 기법을 적용하여 나무의 토폴로지를 결정하고 데이터 세트의 정렬된 배열의 계통 관계를 가장 잘 나타내는 분기 길이를 계산합니다.
• 적용되는 가장 일반적인 계산 기법에는 거리 행렬 기법, 최대 절약법 및 최대 우도법과 같은 이산 데이터 기법이 포함됩니다.
• 이러한 가장 일반적인 방법을 적용하는 소프트웨어 패키지(예: Paup, PAML, PHYLIP 등)가 있습니다.
3. 추정된 트리를 통계적으로 테스트하고 평가합니다.
• 트리 추정 알고리즘은 하나 이상의 최적의 트리를 생성합니다.
•이 일련의 가능한 나무는 한 나무가 다른 나무보다 우수하고 제안된 계통 발생이 합리적인지 여부를 평가하는 일련의 통계 테스트의 대상이 됩니다.
• 트리를 평가하는 일반적인 방법에는 부트 스트랩 및 잭 나이프 리샘플링 방법과 절약, 거리, 우도와 같은 분석 방법이 포함됩니다.
• 계통 분석에 사용할 수 있는 바이오인포매틱스 도구와 데이터베이스가 몇 가지 있습니다.
• 여기에는 PANTHER, P-Pod, PFam, TreeFam 및 PhyloFacts가 포함됩니다.
• 이러한 데이터베이스는 서로 다른 알고리즘을 사용하고 배열 정보의 다른 소스를 활용하므로 예를 들어 PANTHER에 의해 추정된 트리는 P-Pod 및 PFam에 의해 생성된 트리와 크게 다를 수 있습니다.
• 이 유형의 모든 생물 정보학 도구와 마찬가지로 다양한 방법을 테스트하고, 결과를 비교하고, 다양한 유형의 데이터 세트를 포함하는 연구에서 (컨센서스 결과에 따라) 어떤 데이터베이스가 최적으로 작동하는지 결정하는 것이 중요합니다. 계통 나무를 만드는 방법에는 여러 가지가 있습니다.
가장 일반적인 것
• 거리법
• 문자 기반 메서드
이러한 모든 방법은 특정 데이터 세트에 대해 계통 나무가 어떻게 보이는지에 대한 추정치만 제공할 수 있습니다. 좋은 방법의 대부분은 이러한 추정치에 어느 정도의 차이가 있는지의 지표를 제공합니다. 거리법: 면역학적 데이터, 빈도 데이터 또는 방법에 어느 정도의 부정확성이 있는 데이터를 다룰 때 권장됩니다. 매우 빠르고 통계적 테스트가 간단합니다. 부트 스트랩. 입력 시퀀스 간의 유사성 또는 차이의 척도를 도출합니다.
UPGMA 클러스터 알고리즘. 가장 다른 순서의 쌍을 순서대로 링크합니다. 한 쌍이 형성되면 그들은 1 개의 엔티티가 됩니다. (잘못된) 가정이 이루어집니다 : 1. 모든 시퀀스 간에 변화율이 동일합니다. 2. 분기 길이는 시간의 비례 척도에 해당하는 배열 사이의 예상 표현형 거리와 상관됩니다. o NJ UPGMA 메서드에서 수행된 몇 가지 가정을 수정합니다. 뿌리 없는 나무를 만들 수 있습니다. o Fitch와 Margoliash 차이가 가장 적은 시퀀스 쌍을 찾는 대신 최적의 기준을 충족하는 트리를 찾습니다. 뿌리 없는 나무를 만들 수 있습니다. 캐릭터 기반 방법 조상 관계를 재구성하는 데 인기가 있습니다.
• 최대 절약:가능한 모든 트리를 평가합니다. 특정 토폴로지에 의해 암시되는 진화 이벤트의 수를 추측합니다. 따라서 가장 가능성 있는 트리는 관찰된 데이터를 설명하는 데 필요한 최소한의 진화적 변화가 필요한 트리입니다. 문제점: 대부분의 절약 트리는 고유하지 않을 수 있습니다. 트리에 많은 단계가 있으면 유효한 통계 문을 작성하기가 어렵습니다. 특히 시퀀스의 길이가 짧으면, 변화율이 특히 빠른 브랜치는 서로 끌어당기는 경향이 있습니다.
• 최대 가능성: 매우 느립니다. 호모플러스지(한 부위에서 특정 특징의 집중)가 그 정체가 사전에 알고 있는 소수의 부위에만 집중할 것으로 예상되는 경우에 추천됩니다. 이 방법은 서열 내의 모든 뉴클레오타이드 위치에 대해 조상이 뉴클레오티드를 가졌는지 여부 (및 전환 / 전환 비율)에 기초하여 특정 부위에 특정 뉴클레오타이드를 가질 확률을 추정함으로써 기능한다. 합니다. 이러한 확률은 분기 트리의 두 분기의 전체 시퀀스에 걸쳐 합산됩니다. 두 확률의 곱은 이 시점까지 트리의 가능성을 제공합니다. 시퀀스가 증가하면 추정은 모든 분기점에서 재귀적으로 수행됩니다. 각 부위는 독립적으로 진화하기 때문에 계통 발생 가능성은 모든 부위에서 추정할 수 있습니다. 이 프로세스는 네 개의 시퀀스를 사용하는 경우에만 합리적인 시간 내에 실행할 수 있습니다. 네 개 이상의 시퀀스가 있는 경우 네 개의 시퀀스 집합에 대해 기본 트리를 만들고 추가 시퀀스를 트리에 추가한 다음 최대 우도를 찾는 프로세스를 다시 추정합니다. 시퀀스를 추가하는 순서와 프로세스를 시작하기 위해 선택한 첫 번째 시퀀스는 결과 트리에 심각한 영향을 미칩니다. 바이어스를 방지하기 위해 시퀀스 순서를 무작위로 선택하여 전체 프로세스를 여러 번 실행합니다. 그런 다음 다수결 규칙의 합의 트리가 최종 트리로 선택됩니다. 계통수를 만들려면 먼저 정렬을 수행해야 합니다. 이것은 ClustalW를 사용하여 만들 수 있습니다. ClustalW는 트리 파일을 만들 수도 있습니다(트리 유형 풀다운 메뉴에서 'nj', 'phylip' 또는 'dist'를 선택한 경우).
그러나 단순히 ClustalW에서 정렬을 만들도록 선택한 경우 트리를 보다 자세하게 제어할 수 있습니다(이 경우 정렬 자체가 표시되지 않으므로 트리 유형을 선택하지 마십시오). 정렬(PHYLIP 프로그램이 정렬 형식을 ClustalW로 인식할 수 있도록 제목 포함)을 복사하여 PHYLIP 프로그램 제품군의 다음 프로그램 중 하나에 대한 정렬을 위해 제공된 텍스트 입력 상자에 붙여 넣습니다. PHYLIP은 정렬 형식을 Phylip 형식으로 자동 변환합니다. 그러나 때로는 특히 정렬이 매우 큰 경우에는 이 자동 변환으로 인해 오류가 발생할 수 있습니다. SQUIZZ를 사용하여 직접 정렬을 변환할 수도 있습니다.
바이오 인포매틱스의 시작 (0) | 2024.04.09 |
---|---|
생물학과 환경 그리고 경제 (0) | 2024.04.09 |
코로나와 생명공학 (0) | 2024.04.03 |
유전병에 대한 이야기 (0) | 2024.03.29 |
우리 주변의 마법 같은 생명과학: 현실 세계의 흥미로운 이야기 (1) | 2024.03.26 |