Giới thiệu về phylogenomics

Trần Hoàng Dũng

Administrator
Staff member
<dontcry>

Loạt bài về Phylogenomics, Phylogeny của anh lonxon hiện có các link sau:

1. Bài này: Giới thiệu về phylogenomics
2. Giới thiệu về Phylogeny, các bước cơ bản tiến hành

--------------------------------------------------


Theo lịch thì đến tuần sau tui sẽ cò bài thảo luận, do nội dung tui trình bày thiên về Phylognetics mà e là nhiều vấn đề lý thuyết kô ít người chưa gặp qua. Vậy tui tạm post từng phần lý thuyết nhằm giúp mọi người tiếp cận dần lý thuyết cơ bản của Phylogenetics. Mỗi ngày tui post một ít cho mọi người đọc đỡ ngàn. Đọc chơi để biết.


Giới thiệu về phylogenomics – và tiến trình tái lập cây sự sống.

Việc tìm hiểu mối quan hệ phát sinh chủng lòai giữa các lòai sinh vật là một điều kiện tiên quyết của hầu hết bất kỳ nghiên cứu tiến hóa nào, theo hướng cho rằng tất cả các lòai sinh vật hiện hữu đều dang chia sẽ một lịch sử tiến hóa chung thông qua tổ tiên của chúng. Lịch sử nghiên cứu phát sinh chủng lòai mặc dù đã có từ rất lâu nhưng có thể xem chính Charles Darwin trong tác phẩm nổi tiếng của ông „Nguồn gốc các lòai“ (The Origin of Species) chính là người đặt viên gạch chính thức đầu tiên khi ông mô tả lý thuyết tiến hóa của mình.

Ngày nay, phát sinh chủng lòai – hiểu theo một nghĩa đầy đủ đó là tái tạo lịch sử tiến hóa – dựa trên các phương pháp tóan học nhằm suy luận lịch sử tiến hóa sự sống trên hành tinh chúng ta. Việc tái cấu trúc này liên quan đến việc nhận diện chỉ định những đặc tính đồng dạng - HOMOLOGOUS CHARACTERS- được chia sẻ giữa các lòai sinh vật khác nhau và suy luận cây phát sinh chủng lòai từ việc so sánh các đặc tính thông qua việc sử dụng các phương pháp tái cấu trúc có độ tin cậy cao. Độ chính xác của quá trình suy luận vì thế phụ thuộc rất lớn vào độ tin cậy của các mô hình dùng để đánh giá sự tiến hóa của các đặc tính này. Tuy nhiên điều cần lưu ý là cho đến nay các cơ chế tiến hóa vẫn chưa được hiểu biết đầy đủ, nói cách khác người ta vẫn chưa thể tường tận vì sao các đặc tính này tiến hóa, do đó việc tái cấu trúc lịch sử tiến hóa trên trái đất chúng ta chủ yếu dựa trên các lòai sinh vật đang tồn tại do vậy gặp rất nhiều khó khăn.

Trước thập kỷ 1970s, việc tái tạo cây tiến hóa chủ yếu dựa trên phân tích hình thái và các đặc tính siêu cấu trúc. Sở dĩ người ta lấy mốc 1970s là vào thời kỳ này các kỹ thuật sinh học phân tử bùng nổ mạnh mẽ cho phép người ta đọc trình tự DNA và protein. Việc so sánh hình thái của các bằng chứng hóa thạch và các lòai đang còn tồn tại đã cung cấp nhiều kết quả rất có giá trị, ví dụ như nhờ đó mà việc xác lập các nhóm động vật thực chính được tiến hành khá tốt. Tuy nhiên khuynh hướng so sánh hình thái tỏ ra không có ý nghĩa khi nghiên cứu trên các sinh vật hiển vi vì người ta không thể tìm được những bằng chứng hóa thạch hay những đặc tính đồng dạng đáng tin cậy từ việc so sánh hình thái.

Ngành nghiên cứu phát sinh chủng lọai thực sự bước vào một cuộc cách mạng khi các dữ liệu phân tử ra đời. Trong nửa cuối thập niên 1980 nguồn dữ liệu trình tự DNA gia tăng đồng nghĩa với việc gia tăng các đặc tính đồng dạng từ đó giúp nhà nghiên cứu có được những công cụ mạnh mẽ và nhanh chóng giải quyết vác bài tóan phát sinh chủng lòai đang chưa có lời giải. Một vài gene hoặc nhóm gene trở thành gene hay nhóm gene chuẩn cho việc phân tích. Những gene chuẩn này có chung một điểm đó là mức độ bảo tồn của chúng khá cao xuyên suốt tất cả các lòai sinh vật. Gene SSU rRNA - small subunit ribosomal RNA - là gene được sử dụng nhiều nhất cho việc phân lọai vi sinh vật và cho phép nhận diện Archaea như là một giới biệt lập riêng rẽ trong thế giới sự sống bên cạnh Vi khuẩn và Eukaryote. Tuy nhiên khi tiến hành phân tích bằng cách sử dụng nhiều gene thì người ta nhận thấy kết quả thu được không hòan tòan giống với kết quả sử dụng một gene đơn lẻ. Hơn nữa việc sử dụng một gene đơn kẻ không đủ sức cung cấp giá trị thống kê đủ mạnh cho một NODE nào đó trong cây tiến hóa. Do đó hậu quả là nhiều phần trên cây tiến hóa vẫn chưa được thiết lập một cách rõ nét do thiếu những dữ liệu đáng tin cậy.

Điều khó khăn tưởng không vượt qua được (thiếu dữ liệu giá trị) lại được giải quyết một cách rất tình cờ khi hàng tỷ cặp base trình tự thông tin được hình thành từ những dự án giải mã bộ gene ở mọi quy mô từ một vài gene đơn lẻ cho đến cả một bộ gene của một hay nhiều sinh vật. Sự bùng nổ thông tin này, một lần nữa tạo nên một làn sóng nghiên cứu mới trong lĩnh vực nghiên cứu tiến hóa, nó còn có thể đánh dấu sự khai sinh một lĩnh vực mới PHYLOGENOMIC –dùng cơ sở nền tảng lý thuyết của ngành phylogenetics trước đây để tạo nên ý nghĩa cũa dữ liệu genome. Một phân nhánh của phylogenomics là sử dụng dữ liệu genome để tái tạo lại lịch sử tiến hóa của sinh vật. Như vậy việc hiểu được ý nghĩa của PHYLOGENOMICS là cực kỳ quan trọng với các nhà sinh học hiện đại. Có thể hiểu rằng, nếu trước đây các nhà nghiên cứu xem một sinh vật như một thực thể cần nghiên cứu và họ dùng các đặc tính hình thái, di truyền để nghiên cứu sự tiến hóa thì nay, ở kỷ nguyên genome, người ta xem genome là một thực thể cần nghiên cứu quá trình tiến hóa của genome này, đồng thời sử dụng các đặc tính khác để bổ sung hòan chỉnh cho lịch sử tiến hóa của bộ gene. Đến đây chúng tôi tạm dịch phylogenomics là sự phát sinh genome.

Bài này sẽ cung cấp những thông tin sơ lược về các phương pháp được sử dụng để nghiên cứu phylogenomics và phân tích những mặt mạnh mặt yếu của từng phương pháp.


CÁC PHƯƠNG PHÁP HIỆN NAY TRONG LĨNH VỰC NGHIÊN CỨU PHÁT SINH GENOME

Trong việc suy luận phát sinh chủng lòai cổ điển, có 2 bước cơ bản đó là:
  • chỉ định những đặc tính đồng dạng – HOMOLOGY- là những đặc tính chung truyền từ một tổ tiên chung cho đến các thế hệ hiện tại
  • tái cấu trúc cây tiến hóa bằng việc sử dụng các phương pháp thích hợp để so sánh các đặc tính này
Các dạng đặc tính có thể sử dụng là cấu trúc hình thái, siêu cấu trúc của tế bào, các con đường sinh hóa, gene, trình tự DNA và protein miễn rằng chúng thỏa điều kiện là Đồng dạng. Trong đặc tính dữ liệu trình tự (DNA hay protein), sự đồng dạng có thể được xác định bằng phép dò tìm tương tự SIMILIRATY. Khi một đặc tính đồng dạng đã được chỉ định, người ta sẽ thiết lập một ma trận đặc tính (character matrix) mỗi một biến (điểm trong ma trận) ứng với đặc tính quan sát (cột ma trận) và lòai được chọn (hàng của ma trận). Có 3 nhóm phương pháp được dùng để tái cấu trúc cây phát sinh chủng lòai từ một ma trận đặc tính:

- Nhóm các phương pháp khỏang cách - Distance methods: những phương pháp này sẽ biến ma trận đặc tính thành ma trận khỏang cách với ý nghĩa khỏang cách chính là khỏang cách tiến hóa giữa các cặp đối tượng đang được so sánh. Khi đó cây tiến hóa sẽ được suy luận từ ma trận khỏang cách này bằng cách sử dụng các thuật tóan tương ứng như liên kế hàng xóm cận kề - neighbour joining NJ - hoặc tiến hóa tối thiểu - minimum evolution ME.

- Nhóm phương pháp hà tiện đến mức tối đa -Maximum parsimony MP: phương pháp này sẽ chọn lựa cây tiến hóa thỏa điều kiện là số lượng đặc tính bị biến đổi phải thấp nhất để giải thích những dữ liệu đã quan sát được.

- Nhóm phương pháp khả năng xác suất - Likelihood methods: nhóm phương pháp này dựa trên một hàm tóan học tính tóan xác suất khả năng một cây tiến hóa được tạo thành từ dữ liệu đã quan sát. Hàm này cho phép việc tích hợp các quá trình tiến hóa của đặc tính thành mô hình xác suất. Phương pháp xác xuất tối đa - Maximum likelihood ML- chọn lựa cây tiến hóa tối đa mà khi quan sát các dữ liệu dưới một mô hình nào đó nó có xác xuất tối đa. Trong nhóm này còn có phương pháp Baye. Phương pháp Bayes khác phương pháp ML ở chỗ thay vì tìm kiếm đỉnh cao nhất (xác suất tối đa) từ không gian các thông số đã cho như phương pháp ML, phương pháp Bayes lại tích hợp các thông số lại với nhau.

Trong nghiên cứu phát sinh genome thì hai bước này giữ nguyên như một nguyên lý tổng quát.

Như vậy cũng giống như nghiên cứu phát sinh chủng lòai vốn dựa trên dữ liệu hình thái và những gene đơn lẻ thì độ tin cậy của cây phát sinh genome cũng phụ thuộc vào chất lượng của đặc tính được chọn và độ chính xác của phương pháp dùng để phân tích, tái lập cây tiến hóa. Về mặt lý thuyết, những đặc tính đáng tin cậy có thể xem là những đặc tính có ít sự thay đổi nhất xuyên suốt thời gian (lý tưởng nhất là chỉ có một thay đổi). Nếu những đặc tính mang quá nhiều sự biến đổi, nó có thể tạo nên cái gọi là sự tương đồng HOMOPLASY thông qua hình thức hội tụ CONVERGENCE hay nghịch đảo REVERSAL khiến cho dấu hiệu phát sinh chủng lọai không được rõ nét. Sự tương đồng là thuật ngữ dùng để chỉ hai hay nhiều trình tự đặc tính (ví dụ trình tự DNA) không xuất phát từ cùng một tổ tiên chung (tức là không đồng dạng HOMOLOGOUS) nhưng chúng lại giống nhau do quá trình tiến hóa hội tụ mang lại – ví dụ như cánh dơi và cánh chim là một dạng homoplasy, thuật ngữ HOMOPLASY cũng gần nghĩa với SIMILARITY – sự tương tự.

Ba nhóm phương pháp dùng để tái lập cây tiến hóa trong nghiên cứu phát sinh chủng lòai cũng được biến đổi để áp dụng trong nghiên cứu phát sinh genome. Phương pháp tái lập cây phát sinh genome có thể phân chia thành phương pháp dựa trên trình tự và phương pháp dựs trên thuộc tính tòan bộ genome (sequence-based methods and methods based on whole-genome features). Lúc đầu phương pháp dựa trên tòan bộ thuộc tính genome được ưu ái sử dụng khá rộng rãi, tuy nhiên nhiều nghiên cứu gần đây đã đánh giá lại phương pháp này. Kết quả là phương pháp dựa trên sự sắp xếp nhiều gene ại trở thành phương pháp được lựa chọn ưu tiên. Ngòai ta còn một phương pháp nữa đó là phương pháp đánh giá sự hiếm thay đổi trong genome (rare genomic changes).


PHƯƠNG PHÁP DỰA TRÊN TRÌNH TỰ - SEQUENCE-BASED METHODS
Số lượng đặc tính đối nghịch với số lượng lòai


Phương pháp nghiên cứu phát sinh genome dựa trên trình tự là phương pháp dựa trên quá trình so sánh trình tự sơ cấp từ đó cây phát sinh chủng lòai được suy luận từ quá trình so sánh thẳng hàng đa trình tự. Phương pháp này ra đời khỏang năm 2000 khi những nghiên cứu đầu tiên bắt đầu dùng một chuỗi dưới 20 gene để tiến hành phân tích. Sau đó một vài nghiên cứu sử dụng chuỗi dữ liệu với hơn 100 gene cũng được tiến hành. Nhưng nếu trong các việc thực nghiệm sử dụng một gene đơn lẻ nhà nghiên cứu sẽ có số lòai đại diện đủ để tiến hành thì trong nghiên cứu dùng chuỗi dữ liệu nhiều gene họ lại gặp hạn chế đó thì số lòai có nhiều gene được giải trình lại không nhiều. Hơn nữa lúc này công cụ máy tính chưa đủ mạnh để tiến hành các phân tích phức tạp này.

Một trong những vấn đề gây tranh cãi mạnh mẽ nhất trong lĩnh vực nghiên cứu phát sinh chủng lòai đó là để tăng độ chính xác lên mức cao nhất người ta phải tăng số lượng đặc tính (trong trường hợp này là gene) hay tăng số lượng lòai được lấy mẫu. Các dữ liệu thu được lại lập lờ nước đôi. Với các nhà nghiên cứu theo trường phái chủ nghĩa kinh nghiệm thì việc gia tăng số lòai đại diện có ý nghĩa quyết định. Một nhóm các nhà nghiên cứu khác lại có khuynh hướng sử dụng biện pháp an tòan đó là với các lòai đã có bộ gene được giải trình tự tòan bộ họ sẽ tăng số gene trong chuỗi dữ liệu của họ. Tuy nhiên một thực tế cho thấy nếu kết hợp dữ liệu gene với số lòai có gene được giải trình tự thì ta sẽ có một khối dữ liệu lớn nhất nhưng lại mang tính bất đối xứng. Nghĩa là khá nhiều lòai chỉ có vài gene được giải trình và ngược lại có vài lòai lại có nhiều hay tòan bộ genome được giải trình. Vì vậy một điều kiện lý tưởng là nhiều lòai có nhiều gene được giải trình tự.

Siêu ma trận và siêu cây

Khi việc so sánh sắp xếp thẳng hàng nhiều gene đã được thiết lập cho một chuỗi dữ liệu chọn trước, thì sau đó có 2 khuynh hướng đồng thời có thể được sử dụng để tái lập cây phát sinh genome.

Một trong những nguyên tắc cơ bản của việc sử dụng chuỗi dữ liệu có liên quá đó là các dữ liệu này tạo nên một dạng bằng chứng tuyệt đối, do vậy chiến thuật phổ biến nhất đó là phân tích siêu ma trận được tạo thành từ sự liên kết các gene đơn lẻ. Việc tính tóan siêu ma trận này dựa trên phương pháp dựa trên trình tự tiêu chuẩn.

Tuy nhiên thực tế cho thấy không phải các lòai đại diện cũng có tất cả gene nghiên cứu phải được giải trình tự đầy đủ. Do vậy những trình tự bị thiếu ở một lòai nào đó có thể thay thế bằng một dấu hỏi. Câu hỏi đặt ra là liệu những dữ liệu bị thiếu này có ảnh hưởng đến kết quả tái lập cây tiến hóa hay không? Nhiều nghiên cứu thực nghiệm lọai bỏ từ 12,5 % đến 25% dữ liệu cho thấy rằng chúng không làm giảm độ chính xác của cây tiến hóa. Các tác giả cho rằng các dữ liệu bị thiếu có thể được thay thế bù trù từ những thông tín khác. Thực tế lại cho thấy nếu một lòai chỉ có 10 gene đại diện trong chuỗi dữ liệu 100 gene thì vấn đề lại không nghiêm trọng bằng việc không đưa lòai này vào danh sách lấy mẫu. Theo các nhà nghiên cứu, khuynh hướng siêu ma trận tỏ ra ưu việc trong việc tái lập cây tiến hóa bất chấp thông tin trình tự không đầy đủ. Có được điều này là do chuỗi dữ liệu phân tích có thể được thiết kế bằng cách kết hợp khai thác dữ liệu hiện có hoặc sử dụng các thông tin trình tự dưới dạng cDNA và EST. Do vậy khuynh hướng này cho phép tăng số lượng lòai lấy mẫu thay vì giới hạn một số lòai có bộ gene được giải đầy đủ.

Một khuynh hướng nghiên cứu phát sinh genome dựa trên trình tự khác đó là phân tích từng khối dữ liệu riêng rẽ (ví dụ như gene) sau đó kết hợp các cây kết quả riêng rẽ này thành một „siêu cây“. Điều đòi hỏi tiên quyết cho khuynh hướng này là các cây kết quả riêng lẻ phải có phần giao nhau để đảm bảo độ tin cây lắp ghép các cây thành phần thành siêu cây.

Các phương pháp khác nhau dùng cho việc thiết lập siêu cây đã được đưa ra khá nhiều, do bản chất của phương pháp này khá đơn giản và vì vậy có thể sử dụng phương pháp MP để thiết lập ma trận.

Khuynh hướng siêu cây cho thấy nó có ý nghĩa rất lớn khi nguồn dữ liệu phân tích vốn rời rạc không liên tục ví dụ trên cùng một nhóm đối tượng người ta vừa có dữ liệu hình thái vừa có dữ liệu phân tử. Khuynh hướng tạo siêu cây cho kết quả rất tốt khi nghiên cứu sự phát sinh chủng lòai của lòai thú có nhau thai. Tuy nhiên điều lạ lùng là khuynh hướng này lại không mấy thành công khi nghiên cứu sự phát sinh chủng lòai của vi khuẩn và một số lòai Eukaryote hiện đại mà những lòai này có bộ gene được giải hòan chỉnh. Mặc dù vậy, việc tái lập siêu cây tiến hóa có vẻ là một lựa chọn thú vị không chỉ cho các nghiên cứu hiện tại mà còn hứa hẹn cả tương lai do nó cho phép kết hợp các dạng dữ liệu khác nhau đã có trong quá khứ, hiện tại và sẽ thu được trong tương lai.

Nhiều nghiên cứu so sánh giữa hai khuynh hướng này cho thấy kết quả có những điểm đáng lưu ý. Ví dụ khi nghiên cứu sự phát sinh chủng lòai nhóm cá sâu thù khuynh hướng dựa trên siêu ma trận cho kết quả tốt hơn khuynh hướng siêu cây. Nhưng nghiên cứu tiến hóa của các lòai cỏ thì hai khuynh hướng lại cho kết quả như nhau. Tuy nhiên việc so sánh 2 khuynh hướng này không phải dễ do mỗi khuynh hướng khác nhau lại dùng một dạng dữ liệu khác nhau. Đó là điều mà các nhà nghiên cứu nhận thấy khi nghiên cứu sự phát sinh chủng lòai ở vi khuẩn, hai khuynh hướng lại cho những kết quả tương tự mặc dù hai khuynh hướng lại dựa trên chuỗi dữ liệu khác nhau.
 
Last edited by a moderator:
PHƯƠNG PHÁP DỰA TRÊN THUỘC TÍNH TÒAN BỘ GENOME

Thành phần gene và trật tự của gene.

Các phương pháp tái lập cây phát sinh chủng lọai dựa trên thuộc tính tòan bộ genome đã được phát triển gần đây. Như tên gọi thì phương pháp này vuợt quá tầm trình tự thông thường, tức là nó dựa trên thành phần gene và trật tự của gene. Do không dựa trên trình tự gene như phương pháp cổ điển, nên phương pháp dựa trên bộ gene không cần phải qua bước sắp xếp thẳng hàng nhiều gene. Nhưng phương pháp này vẫnphải đảm bảo hai thuộc tính quan trọng đó là ĐồNG DạNG và TRựC GIAO HOMOLOGY and ORTHOLOGY. Nếu chúng ta nhớ lại là nếu cho 1 gene thì ứng với một vị trí chỉ có thể một trong 4 thuộc tính ứng với 4 nucleotide thành phần. Nhưng với một bộ gene thì việc thay đổi thành phần và trật tự gen có thể dưa đến hằng tỷ sự thay đổi, tương ứng hàng tỷ thuộc tính có thể có. Do vậy một ưu điểm của phương pháp dựa trên tòan bộ genome là chúng không sợ gặp trường hợp HOMOPLASY do tiến hóa hội tụ hay nghịch đảo gây ra và do đó cả bộ gene đóng vai trò như một marker phát sinh chủng lòai lý tưởng vì chúng chứa hầu như tòan bộ thông tin cần và dủ cho việc tái lập quá trình phát sinh chủng lòai.

Tuy sử dụng những dạng đặc tính khác nhau không giống như phương pháp dựa trên trình tự, nhưng phương pháp dựa trên tòan bộ genome lại sử dụng các thuật tóan chuẩn vốn được sử dụng trong phương pháp dựa trên trình tự để tái lập cây tiến hóa. Cụ thể chúng sử dụng hai phương pháp đó là phương pháp khỏang cách – Distance methods và phương pháp hà tiện – Parsimony methods. Khi sử dụng phương pháp phân tích dựa trên thành phần gene, một lỗi hệ thống thường xảy ra đó việc lấy mẫu các lòai nghiên cứu, cụ thể là người ta nhóm các sinh vật liên quan với cùng một số lượng gene cần phân tích. Điều này sẽ gây ra hiện tượng „hiệu ứng bộ gene lớn“ (big genome attraction). Hiện tượng này được cho là do những gene hội tụ đã mất đi trong một bộ gene nào đó, ví dụ ở bộ gene các lòai ký sinh nội bào.

Trật tự gene đã được nhận diện từ rất sớm như là một đặc tính rất có giá trí trong việc tái tạo cây tiến hóa. Tuy nhiên việc ứng dụng trật tự gene nhằm ước tính khỏang cách tiến hóa từ một bộ gene với một bộ gene khác thực sự là một vấn đề cực kỳ khó khăn về mặt tóan học. Ở đây cần lưu ý rằng khỏang cách tiến hóa giữa hai bộ gene chính là số lần tái sắp xếp cần thiết để từ một bộ gene này ta có một bộ gene khác. Nhiều thuật tóan mạnh như phương pháp tự dò tìm sự tối thiểu những điểm đột biến (HEURISTIC approach of BREAKPOINT minimization). Trong ngữ cảnh của phân tích phát sinh chủnng lòai dựa trên tòan bộ genome, cụ thể là so sánh trật tự, thì thuật ngữ breakpoint được định nghĩa là hiện tượng một cặp gene nằm liền kề trong một bộ gene này nhưng lại không có trong bộ gene khác.

Thông thường, chỉ có trường hợp nghịch đảo gene được xem xét trong mô hình tiến hóa dựa trên trật tự gene, nhưng để có được kết quả chính xác hơn, các mô hình tiến hóa còn phải xem xét sự nhân đôi, chèn và lọau bỏ gene. Do vậy người ta đang cần xây dựng nhiều thuật tóan có độ tin cậy cao nhằm biến khuynh hướng xây dựng cây tiến hóa dựa trên trật tự gene thật sự trở thành một khuynh hướng đáng tin cậy.


Khuynh hướng chuỗi DNA.

Cuối cùng, một khuynh hướng khác cũng dựa trên thuộc tính tòan bộ genome đó là khuynh hướng dựa trên sự phân bố chuỗi DNA (là một oligonucleotides) trong genome. Khuynh hướng này phát triển trên cơ sở lập luận rằng: mỗi bộ gene có một „chữ ký“ đặc trưng mà nó được định nghĩa trước, ví dụ đó là tỷ lệ giữa tần xuất quan sát và tần xuất mong đợi của một dinucleotide tại một vị trí bên cạnh một điểm ta chọn tẫu nhiên. Nhiều nghiêu cứu gần đây cho thấy có thể thu được những dấu hiêu phát sinh chủng lòai nếu sử dụng những oligonucleotide thường gặp. Mặc dù thế khi xem xét sự phát sinh chủng lòai của Prokaryote thì người ta nhận thấy những oligonucleotide thường gặp lại tiến hóa nhanh hơn SSU rDNA. Do đó người ta cho rằng các oligonucleotide thường gặp đã bão hòa trong tiến hóa và vì thế nó không đủ sức cung cấp dấu hiệu phát sinh chủng lòai nên nó không đủ độ tin cậy để xây dựng cây tiến hóa với những gene phân kỳ xa xưa.


NGHIÊN CỨU SỰ THAY ĐỔI HIẾM XẢY RA TRONG GENOME

Những sự thay đổi hiếm xảy ra trong genoem bao gồm vị trí intron, chèn và lọai bỏ (indel), sự tích hợp các retroposon SINE và LINE, sự phân tán và sự tích hợp gene. Để ứng dụng những sự thay đổi hiếm này, người ta buộc phải so sánh tòan bộ genome. Tuy nhiên phương pháp này cho phép người ta tin rằng những sự thay đổi hiếm xảy ra trong genome có xác suất cực kỳ thấp là do sự hội tụ đưa tới.

Cho tới nay khuynh hướng này ít được sử dụng vì hai lý do (1) số lượng thuộc tính được sử dụng cho phân tích không nhiều; (2) mặc dù hiếm xảy ra nhưng vẫn có thể có những sự tương tự xảy ra, điều này sẽ ảnh hưổng đến kết quả phân tích cuối cùng. Do đó người ta chỉ hy vọng là trong tương lai khi nhiều bộ gene được đọc hòan chỉnh, các thống kế tóan học đầy đủ sẽ có thể khẳng định ưu thế của phương pháp này.
 
Last edited by a moderator:
Đây là bài mà tui sẽ phân tích, minh họa cho lĩnh vực Phylogenomics, các anh chị có thể load về đọc trước, tuần sau tui sẽ bắt đầu mổ xẻ nó.
 

Facebook

Thống kê diễn đàn

Threads
12,995
Messages
72,869
Members
45,065
Latest member
Go88aa
Back
Top