10.6 Dự đoán cấu trúc 3D
Như đã đề cập, dự đoán cấu trúc protein từ trình tự là một vấn đề phức tạp, và chưa có một phương pháp nào thoả mãn tất cả các thông số. Tuy nhiên, có một số công cụ có thể dùng dự đoán cấu trúc không gian. Những công cụ này được chia làm 2 loại: mô hình tương đồng (homology modeling) và dự đoán ab-initio.
10.6.1 Mô hình tương đồng
Khi có một trình tự protein (trình tự mục tiêu dùng để xác định cấu trúc), thực hiện sắp gióng cột trình tự này với một trình tự khác đã biết cấu trúc. Nếu có độ tương tự cao giữa 2 trình tự, ta có thể dùng cấu trúc đã biết trên như một khuôn mẫu cho trình tự mục tiêu, với độ tin cậy nhất định.
Có một quá trình chuẩn được sử dụng chung trong các chương trình dự đoán bằng mô hình tương đồng, gồm các bước:
- Sử dụng trình tự mục tiêu làm trình tự truy vấn để tìm các cấu trúc protein đã biết
- Sắp gióng cột toàn trình tự (và tối ưu) trình tự mục tiêu với (một hay nhiều) trình tự dùng làm khuôn mẫu
- Xây dựng khung sườn protein, sử dụng khung sườn của protein khuôn mẫu làm mô hình.
- Trong các vùng có gap (trên trình tự mục tiêu hay trình tự khuôn mẫu), sử dụng các thủ tục loop-modeling để thay thế các đoạn vói chiều dài thích hợp.
- Thêm chuỗi bên vào khung sườn
- Tối ưu hoá vị trí của các chuỗi bên
- Tối ưu hoá cấu trúc, sử dụng phương pháp cực tiểu năng lượng và các phương pháp tối ưu hoá bằng lý thuyết
Chìa khoá thành công trong một dự đoán với phương pháp này thường không nằm ở phần mềm hay server sử dụng, mà chủ yếu là ở kỹ năng của người dùng trong việc thiết kế một sắp gióng cột tốt, trong đó có thể kết hợp các phương pháp sắp gióng cột chuẩn, phương pháp profile, và các kỹ thuật so sánh cấu trúc (ví dụ ở cuối chương). Một khi đã có được sắp gióng cột tốt, ta có thể sử dụng nhiều chương trình để khai thác thông tin đó và xây dựng mô hình cấu trúc.
10.6.1.1 Modeller
Modeller (http://salilab.org/modeller/download_installation.html) là một chương trình sử dụng mô hình tương đồng không có giao diện đồ họa. Với mỗi hệ điều hành đều có nhiều file khác nhau đáp ứng các yêu cầu mô hình protein khác nhau (đọc README để biết giới hạn của từng file về tống số nguyên tử, tổng số amino acid và tổng số trình tự cho đầu vào sắp gióng cột)
Đầu vào cho Modeller gồm 2 file: 1 file sắp gióng cột và 1 Modeller script. Định dạng của file sắp gióng cột được nêu tả chi tiết trong trang hướng dẫn của Modeller. Modeller script cho một sắp gióng cột đơn giản chỉ gồm vài dòng viết bằng ngôn ngữ TOP (Modeller's internal language).
Modeller có thể tính toán ra nhiều mô hình cho một đầu vào bất kỳ. Nếu giá trị của ENDING_MODEL (xem script ví dụ) lớn hơn 1, sẽ có nhiều mô hình được phát sinh. Việc phát sinh nhiều mô hình thường được ưa chuộng hơn. Với các mô hình được phát sinh, người ta có thể đánh giá chúng một cách độc lập và chọn ra kết quả tối ưu.
Ví dụ dưới đây được cung cấp trong tài liệu hướng dẫn kèm theo của chương trình, cho thấy cách thiết lập cho một kết quả sắp gióng cột (đã xuất thành file) giữa trình tự mục tiêu với một trình tự đã biết.
INCLUDE # sử dụng các hàm TOP đã định nghĩa
SET ALNFILE = 'alignment.ali' # tên file chứa kết quả sắp gióng cột
SET KNOWNS = '5fd1' # mã của các trình tự khuôn mẫu
SET SEQUENCE = '1fdx' # mã của trình tự mục tiêu
SET ATOMS_FILES_DIRECTORY = './:../atom_files' # thư mục chứa file atom đầu vào
SET STARTING_MODEL = 1 # index của mô hình đầu tiên
SET ENDING_MODEL = 1 # index của mô hình cuối cùng ( => quyết định số lượng mô hình sẽ tính toán)
CALL_ROUTINE = 'model' # thực hiện tính toán với mô hình tương đồng
Modeller được thực thi bằng lệnh mod tên_script
Modeller có nhiều chức năng và có sẵn các lệnh hỗ trợ việc tạo file đầu vào.
SEQUENCE_SEARCH tìm các trình tự tương tự trong cơ sở dữ liệu các cấu trúc đại diện fold
MALIGN3D sắp gióng 2 hay nhiều cấu trúcALIGN sắp gióng 2 khối trình tự
CHECK_ALIGNMENT đánh giá một kết quả sắp gióng cột dùng cho việc xây dựng mô hình
COMPARE_SEQUENCES chấm điểm các trình tự trong sắp gióng cột dựa trên mức độ giống nhau từng đôi một
SUPERPOSE xếp chồng một mô hình lên một cấu trúc khuôn mẫu
ENERGY tính toán và báo cáo cá vi phạm về mặt năng lượng trong mô hình đã xây dựng
Các lệnh cần được thực thi thông qua một file script. (tham khảo thêm trong tài liệu hướng dẫn của Modeller)
Một điều cần lưu ý trong việc tính toán bằng mô hình tương đồng là vị trí các phân tử của chuỗi bên có thể không được chính xác, vì phương pháp này chủ yếu đưa ra dự đoán khung sườn protein với độ tin cậy chấp nhận được, mà không cung cấp thông tin về định hướng của chuỗi bên. Do đó, nhiệm vụ chính của các chương trình xây dựng mô hình là tránh các xung đột về mặt lập thể và các cấu trạng bất thường (thay vì tối ưu hoá định hướng của chuỗi bên). Định hướng chuỗi bên sai có thể dẫn đến sai lầm trong nghiên cứu cơ chế chức năng của protein.
10.6.1.2 Cách cây dựng mô hình của Modeller
Mặc dù Modeller chứa các công cụ cần thiết cho việc sắp goíng cột trình tự và tìm kiếm trên cơ sở dữ liệu, điểm bắt đầu thực sự của chương trình là một kết quả sắp gióng cột đa trình tự giữa trình tự mục tiêu và (các) trình tự khuôn mẫu.
Modeller sử dụng các cấu trúc khuôn mẫu để phát sinh một loạt các giới hạn về không gian để áp lên trình tự mục tiêu. Giới hạn cũng có thể áp dụng với góc liên kết và các cặp góc nhị diện. Bằng cách áp đặt những giới hạn này, Modeller có thể giảm số lượng các cấu trạng cho phép của mô hình.
Các giới hạn thực chất là dựa trên các phân tích thống kê về sự khác biệt giữa từng cặp trong các cấu trúc tương đồng, mô tả một cách định lượng mức độ khác biệt giữa các cấu trúc tương đồng về tính đa dạng. Ví dụ, lượng sai khác cho phép giữa khoảng cách tương đương Calpha-Calpha được biểu thị bằng PDF (probaility density function, hàm mật độ xác suất).
Việc sử dụng các giá trị tới hạn dựa trên PDF cho phép chúng ta xây dựng một cấu trúc không hoàn toàn giống như cấu trúc khuôn mẫu, mà là một cấu trúc có sự sai biệt với cấu trúc khuôn mẫu trong giới hạn cho phép, và phải nằm trong giới hạn khác biệt giữa những protein tương đồng đã biết cấu trúc. Ví dụ, nếu một góc nhị diện trong khuôn mẫu có giá trị là 60o +- 5o, thì giá trị tới hạn dựa trên PDF phải cho phép các giá trị trong khoảng 55 - 65. Giá trị tới hạn này được xác định thông qua phân tích trên các cặp cấu trúc tương đồng đã biết. (chỗ này cần coi thêm và giải thích lại)
Giới hạn không gian dựa trên mô hình tương đồng không phải là giới hạn duy nhất được áp đặt lên mô hình, mà còn có trường lực nhằm đảm bảo các điều kiện hợp lý trong hoá học lập thể (để các mô hình được xây dựng không vi phạm các định luật hoá học). Tất cả cac1 giới hạn hoá học và giới hạn không gian được phối hợp trong một hàm (gọi là hàm objective). Hàm này được tối ưu hoá trong quá trình cây dựng mô hình.
10.6.1.3 ModBase - cơ sở dữ liệu các mô hình phát sinh tự động
Các tác giả phát triển Modeller đã đưa lên một CSDL trực tuyến chứa các mô hình tương đồng được chú thích. Các mô hình này được chuẩn bị bằng cách sử dụng pipeline dư đoán tự 9dộng hoá. Bước đầu tiên của pipeline là so sánh từng trình tự protein chưa biết với một CSDL các cấu trúc đã có. Protein có sự tương đồng trình tự đáng kể so với các cấu trúc (hay domain) đã biết sẽ được mô hình hoá với khuôn mẫu là các cấu trúc đó. Trình tự chưa biết được sắp gióng với trình tự đã biết bằng ALIGN2D (một lệnh của Modeller), và cấu trúc 3D được xây dựng bằng chương trình Modeller. Bước cuối cùng trong pipeline là đánh giá mô hình. Kết quả đánh giá sẽ được trình bày cho người dùng đồng thời với kết quả truy vấn. Vì đây là thủ tục chuẩn để xây dựng mô hình bằng phương pháp này, bạn nên kiểm tra Modbase trước khi bắt tay xây dựng một mô hình theo yêu cầu của riêng mình.Thủ tục chung trong xây dựng mô hình với Modeller là xác định sự tương đồng giữa trình tự mục tiêu và các protein đã biết, thực hiện sắp gióng cột đa trình tự các cấu trúc đã biết để tạo cấu trúc khuôn, áp dụng các thuật giải Modeller lên trình tự mục tiêu.Mô hình có thể được đánh giá bằng các phương pháp đánh giá cấu trúc chuẩn.
10.6.1.4 Server SWISS-MODEL
SWISS-MODEL là một web server cung cấp dịch vụ xây dựng mô hình tương đồng tự động đặt tại Viện Tin - Sinh học Thụy Sĩ. SWISS-MODEL nhận một trình tự đưa lên và tự động trả về một cấu trúc. Các thủ tục tự động trong SWISS-MODEL cũng tương tự như các bước chuẩn trong một project homology modeling:
Sử dụng BLAST để tìm các trình tự đã biết cấu trúc trong CSDL cấu trúc
Chọn khuôn mẫu, tìm các domain có thể được
No comments:
Post a Comment