생물 정보학은 포스트 게놈 시대의 버즈워드 (Buzzword) 중 하나이지만 완전히 새로운 학문이라는 것은 아닙니다. 마가렛 데이호프, 리처드 에크 및 로버트 레들리에 의한 단백질 데이터의 컴퓨터 지원 분석에서 선구적인 연구의 시작은 1960년경까지 거슬러 올라갑니다. 데이호프, 에크, 레들리는 컴퓨팅, 수학, 생명과학에서의 경험과 훈련을 활용하여 단백질 서열의 수집과 정리, 서열 분석, 단백질 진화 연구를 실시했습니다. 그들의 연구는 현대 생물 정보학의 직접적인 조상으로 간주될 수 있습니다. 1965년, 데이호프, 에크, 그리고 몇몇 동료들은 당시 알려진 B50 서열을 포함한 최초의 단백질 서열 및 구조 아틀라스를 편집했습니다. 2권은 1966년에 출판되었으며 100개가 넘는 시퀀스가 포함되었습니다. 이 단백질의 배열과 구조 정보 편집은 현대 생물 정보학의 백본을 형성하는 현재 유전자와 단백질 데이터베이스의 전신입니다. 그 후, 더 많은 단백질 서열이 보고됨에 따라 데이호프의 지도하에 아틀라스의 규모와 인기가 증가했다. 궁극적으로 데이터베이스는 단백질 정보 리소스 (PIR) 데이터베이스가 되며 현재 조지 타운 대학에서 유지됩니다. 마가렛 데이호프는 조지타운 대학 의료 센터의 교수였습니다. 독립적인 연구자로서 데이호프는 수학의 배경을 가져왔습니다.
생물학, 특히 단백질 화학 문제를 해결하기 위해 화학과 컴퓨팅을 연구하고 수학과 계산 기법을 생화학에 적용하는 선구자가 되었습니다. 그녀의 가장 중요한 기여 중 하나는 리처드 에크와 협력하여 모든 단백질 분석 도구에 사용되는 아미노산의 단일 문자 코드를 개발했다는 것입니다. 그녀는 단백질의 배열을 정렬하는 컴퓨터 알고리즘을 개발했습니다. 이로 인해 단백질의 진화의 역사가 밝혀질 것으로 (정확하게) 생각되고 있었습니다. 리처드 에크는 화학 공학과 식물 생물학을 배웠습니다. 1961년, 에크는 다른 종의 헤모글로빈 변이체와 인슐린 등 다른 단백질의 모든 서열을 비교한 논문을 Nature에 발표했습니다. 그는 아미노산 서열에 대한 정보를 다양한 방식으로 정리하여 특정 패턴을 생성할 수 있음을 깨달았고 단백질에서 다수의 아미노산 치환을 확인하고 치환 패턴이 무작위가 아니라는 것을 주목했습니다. 1964년 회의에서 에크는 단백질의 진화를 추적하기 위한 암호문법을 발표했습니다.
그는 이 결과를 사용하여 조상을 참조하여 각 단백질의 관련성 정도를 계산하고 분기 사이의 거리가 관련성의 정량적 척도를 나타내는 가계도를 그릴 수 있다고 제안했습니다. 이와 같이, 에크는 계통수의 재구성의 기초를 개설했습니다.
이론 물리학과 치학을 배운 로버트 레들리는 배열 분석에 컴퓨터의 중요한 응용을 구상했다. 그는 폴리펩티드 사슬을 많은 중복된 단편으로 절단하고, 그 서열을 펩티드 시퀀싱에 의해 결정한 후, 완전한 서열을 얻기 위하여 다음과 같은 방법으로 부분서열의 단편 재구성을 수행할 수 있다고 제안했습니다.
레들리 씨는 생화학자가 단백질의 서열을 결정하는 노력을 컴퓨터가 지원할 수 있다고 제안했습니다. 그는 데이호프를 이 문제에 대한 조사를 계속하기 위해 1960년에 국가표준국(NBRF, 나중에 국립표준기술연구소, 즉 NIST)의 직원에 참가하도록 초대했습니다. Dayhoff와 Ledley는 부분 펩티드 서열을 올바른 순서로 5분 이내에 조립할 수 있는 FORTRAN 프로그램을 만들었습니다.
데이호프와 에크는 모두 단백질의 진화 연구에 종사하게 되었지만, 레들리는 연구를 계속했습니다 생물학에서 컴퓨터의 응용에 관심이 있었습니다. 백질 서열 분석에서 중요한 역할을 수행하고 단백질 서열 연구를 기반으로 진화 생물학에 계속 공헌했습니다. 그녀는 9장에서 설명한 최대 절약법을 사용한 계통수의 최초 재구성을 발표했습니다. 그녀는 또한 PAM 매트릭스라고 불리는 단백질의 진화를 연 구하기 위한 최초의 아미노산 치환 매트릭스를 개발했습니다. PAM은 100개 아미노산 잔기당 허용점 돌연변이를 나타내므로 점 허용 돌연변이(퍼센트 허용 돌연변이라고도 함)를 나타냅니다.
인기 과학 잡지 The Scientific American에 게재된 Dayhoff의 논문 Computer Analysis of Protein Evolution 4는 생물정보학과 분자계통학에서 가장 중요한 초기 출판물 중 하나로 간주됩니다. 마가렛 데이호프는 엄청난 선구적 기여로 현대 바이오인포매틱스의 창시자로 널리 알려져 있습니다. 바이오인포매틱스는 기본적으로 생물학에 적용되는 정보학, 즉 생물학적 데이터의 컴퓨터 지원 분석이다. 바이오인포매틱스에는 많은 정의/설명이 있습니다. 이러한 정의 중 일부는 바이오 인포매틱스와 컴퓨팅 생물학을 전반적으로 구별하지 않습니다. Luscombe et al.6은 생물 정보학을 다음과 같이 정의했습니다.
생물 정보학은 생물학을 분자 (물리 화학의 의미에서)의 관점에서 개념화하고 (응용 수학, CS, 통계 등의 분야에서 파생된) "정보학"기술을 적용하여 이러한 분자에 관련 정보를 이해하고 정리하는 것입니다. Higgs와 Attwood7은 정신적으로 동일하지만 두 가지 방법으로 설명된 바이오 인포매틱스의 두 가지 정의를 제공했습니다.
(1) 바이오인포매틱스는 유전자, 단백질, 전체 게놈의 구조, 기능, 진화를 연구하기 위한 계산 방법의 개발입니다.
(2) 바이오인포매틱스는 게노믹스 및 고 처리량 실험으로 인한 생물학적 정보의 관리 및 분석을 위한 방법의 개발이다.
따라서, 분자 생물학자들에게 바이오인포매틱스는 유전자, 게놈 및 이들의 산물에 대한 정보의 컴퓨터 지원 분석 분야이다. 다시 말해, 모든 실용적인 목적에서, 생물 정보학은 컴퓨팅 기술을 사용하여 유전자와 단백질의 구조, 기능, 제어 및 상호작용 네트워크를 연구하는 컴퓨팅 분자 생물학으로 간주될 수 있다. 궁극적인 목표는 생물체의 전체 게놈 구조, 조직, 기능, 제어 및 역학을 분석하고 예측하는 것입니다.
해부학 및 생리학 개요 (0) | 2024.04.18 |
---|---|
마이크로어레이 분석(MICROARRAY ANALYSIS) (0) | 2024.04.11 |
생물학과 환경 그리고 경제 (0) | 2024.04.09 |
계통분석이란? (1) | 2024.04.04 |
코로나와 생명공학 (0) | 2024.04.03 |