[storage] 인간 게놈을 저장하려면 얼마나 많은 저장 공간이 필요합니까?

Question 1

단일 인간 게놈을 저장하는 데 필요한 바이트 (MB, GB, TB 등) 단위의 스토리지 양을 찾고 있습니다. 나는 Wikipedia에서 DNA, 염색체, 염기쌍, 유전자에 대한 몇 가지 기사를 읽었으며 대략적인 추측이 있었지만 공개하기 전에 다른 사람들이이 문제에 어떻게 접근하는지보고 싶습니다.

대안적인 질문은 인간 DNA에 얼마나 많은 원자가 있는지가 될 것이지만,이 사이트에서는 주제가 아닙니다.

나는 이것이 근사치라는 것을 이해하므로 모든 인간의 DNA를 저장할 수있는 최소한의 값을 찾고 있습니다.

Question 2

그러한 것들을 신뢰한다면, 다음은 Wikipedia가 주장하는 내용입니다 ( http://en.wikipedia.org/wiki/Human_genome#Information_content에서 ) :

반수체 인간 게놈의 29 억 염기쌍은 모든 염기쌍이 2 비트로 코딩 될 수 있기 때문에 최대 약 725 메가 바이트의 데이터에 해당합니다. 개별 게놈은 서로 1 % 미만 차이가 나기 때문에 약 4MB로 무손실 압축 할 수 있습니다.

Question 3

모든 DNA를 하나의 흐름에 저장하는 것이 아니라 대부분 염색체에 의해 저장됩니다.

큰 염색체는 약 300MB, 작은 염색체는 약 50MB를 차지합니다.

편집하다:

기본 쌍당 2 비트로 저장되지 않는 첫 번째 이유는 데이터 작업에 장애물이 발생하기 때문이라고 생각합니다. 대부분의 사람들은 그것을 변환하는 방법을 모릅니다. 그리고 전환 프로그램이 주어 지더라도 대기업이나 연구소의 많은 사람들이 프로그램 설치 방법을 묻거나 알 필요가 없습니다.

1GB 스토리지는 비용이 들지 않으며 3GB를 다운로드해도 100Mbitsps로 4 분 밖에 걸리지 않으며 대부분의 회사는 더 빠른 속도를 제공합니다.

또 다른 요점은 데이터가 말한 것만 큼 간단하지 않다는 것입니다.

예를 들어 Craig_Venter 가 발명 한 시퀀싱 방법 은 큰 발전 이었지만 단점 이 있습니다. 동일한 기본 쌍의 긴 체인을 분리 할 수 없으므로 8 개의 A 또는 9 개의 A가 있는지 항상 100 % 명확하지는 않습니다. 나중에 처리해야 할 사항 …

또 다른 예는 DNA 메틸화입니다. 이 정보를 2 비트 표현으로 저장할 수 없기 때문입니다.

Question 4

기본적으로 각 기본 쌍은 2 비트를 사용합니다 (T, G, C 및 A에 대해 00, 01, 10, 11을 사용할 수 있음). 인간 게놈에는 약 29 억 개의 염기쌍이 있으므로 (2 * 29 억) 비트 ~ = 691 메가 바이트입니다.

저는 전문가는 아니지만 Wikipedia 의 Human Genome 페이지에 다음과 같이 나와 있습니다.

원시 MB :

남성 (XY) : 770MB
여성 (XX) : 756MB

그들의 차이가 어디에서 왔는지 확실하지 않지만 당신이 그것을 알아낼 수 있다고 확신합니다.

Question 5

예, 전체 인간 DNA에 필요한 최소 RAM은 약 770MB입니다. 그러나 2 비트 표현은 비실용적입니다. 검색하거나 계산하기가 어렵습니다. 따라서 일부 수학자들은 염기의 염기 서열을 저장하는 더 효과적인 방법을 설계하고 … 예를 들어 GARLI (www.bio.utexas.edu/faculty/antisense/garli/garli.html)와 같은 검색 및 비교 알고리즘에서이를 사용합니다. 이 응용 프로그램은 지금 내 PC에서 실행되므로 여러분에게 말할 수 있습니다 … 실제로 약 1563MB 에 저장된 DNA가 있습니다.

Question 6

사용자 slayton, rauchen, Paul Amstrong을 제외한 대부분의 답변 은 압축 기술이없는 순수한 스토리지 일대일에 대해 잘못되었습니다.

3Gb의 뉴클레오티드를 가진 인간 게놈은 ~ 750MB가 아닌 3Gb의 바이트에 해당합니다. NCBI에 따라 구축 된 “반수체”게놈은 현재 3436687kb 또는 3.436687Gb 크기입니다. 여기 에서 직접 확인 하십시오 .

반수체 = 염색체의 단일 사본. Diploid = 두 가지 버전의 반수체. 인간은 22 개의 고유 한 염색체 x 2 = 44를 가지고 있습니다. 23 번째 염색체 수컷은 X, Y이며 총 46 개를 만듭니다. 암컷 23 번 크롬. X, X이므로 총 46 개가됩니다.

남성의 경우 HDD의 데이터 저장에서 23 + 1 염색체이고 여성의 경우 23 염색체가 될 것입니다. 이는 답변에서 언급 된 작은 차이점을 설명합니다. X 크롬. 수컷에서 X chrom과 같습니다. 암컷에게서.

따라서 게놈 (23 + 1)을 메모리에로드하는 작업은 fasta-file에서 구성된 데이터베이스를 사용하여 BLAST를 통해 부분적으로 수행됩니다. 압축 된 버전이든 아니든 상관없이 뉴클레오티드는 거의 압축되지 않습니다. 초기에 사용 된 트릭 중 하나는 직렬 반복 (GACGACGAC을 더 짧은 코딩, 예 : “3GAC”, 9 바이트에서 4 바이트로)을 대체하는 것이 었습니다. 그 이유는 하드 드라이브 공간 (7.200rpm 및 SCSI 커넥터가있는 500bm-2GB HDDD 플래터 영역)을 절약하기 위해서입니다. 시퀀스 검색의 경우 쿼리로도 수행되었습니다.

경우 “코딩 염기” 저장 문자 당 2 비트의 것 당신은 바이트 얻을 :

A = 00
C = 01
G = 10
T = 11

그래야만 1 바이트 코딩에 대해 1,2,3,4,5,6,7 및 8 위치에서 완전히 이익을 얻을 수 있습니다. 예를 들어 조합 00.01.10.11 (byte 00011011)은 “ACTG”에 해당합니다 (텍스트 파일에 인식 할 수없는 문자로 표시됨). 이것만으로 다른 답변에서 볼 수 있듯이 파일 크기가 4 배 감소합니다. 따라서 3.4Gb는 필요한 변환 프로그램 (23kb-4mb)을 포함하여 0.85917175Gb … ~ 860MB로 축소됩니다.

그러나 … 생물학에서는 무언가를 읽을 수 있기를 원하므로 압축 gzip으로 충분합니다. 압축을 풀면 여전히 읽을 수 있습니다. 이 바이트 채우기를 사용하면 데이터를 읽기가 더 어려워집니다. 이것이 바로 fasta-file이 실제로 일반 텍스트 파일 인 이유입니다.

Question 7

인간 게놈에는 29 억 개의 염기쌍이 포함되어 있습니다. 따라서 각 기본 쌍을 바이트로 표시하면 29 억 바이트 또는 2.9GB가 필요합니다. 각 기본 쌍은 2 비트 만 필요하므로 기본 쌍을 저장하는보다 창의적인 방법을 생각 해낼 수 있습니다. 따라서 바이트 당 4 개의 기본 쌍을 저장하여 총 1GB 미만을 줄일 수 있습니다.

Question 8

DNA를 구성하는 4 개의 뉴클레오티드 염기는 A, C, G, T이므로 DNA의 각 염기에 대해 2 비트를 차지합니다. 약 29 억 개의베이스가 있으므로 약 700 메가 바이트입니다. 이상한 점은 일반 데이터 CD를 채울 것입니다! 우연의 일치?!?