Gene kéo dài tuổi thọ hay là “sự cố khoa học”

Một “sự cố” khoa học trong tuần qua liên quan đến một công trình nghiên cứu về gene kéo dài tuổi thọ làm giới khoa học và giới báo chí quốc tề “ồn ào”. Nhưng sự cố này cũng cung cấp cho chúng ta nhiều bài học quí báu về làm nghiên cứu khoa học.

Khi đọc một bài báo khoa học, người ngoài chuyên ngành thường hay “đọc ngược”. Họ đọc phần kết luận xong rồi đến phần kết quả, sau đó là phương pháp và dẫn nhập. Có người chỉ đọc phần tóm lược (abstract), và ngay trong phần tóm lược, họ tìm câu văn kết luận.  Nhưng cách đọc như thế rất nguy hiểm.  “Sự cố” khoa học trong tuần qua minh chứng cho sự nguy hiểm đó.

science

Tuần vừa qua, một bản tin trên tờ New York Times được truyền đi khắp thế giới làm nức lòng người: các nhà khoa học của Đại học Boston (Mĩ) đã khám phá một số gene có liên quan đến tuổi thọ con người.  Bản tin còn cho biết họ có thể dùng thông tin về gene để tiên lượng ai có khả năng thọ lâu, với độ chính xác lên đến 77%!  Đây là một khám phá rất có ý nghĩa cho những người (từ cổ chí kim) đi tìm sự trường thọ.

Công trình nghiên cứu được công bố trên tập san Science, một tập san số 1 về khoa học trên thế giới.  Với danh tiếng của Science và sự tiếp tay của hệ thống truyền thông quốc tế qua New York Times, công trình nghiên cứu được lan truyền nhanh chóng, và trở thành một đề tài khoa học thời sự.  Như là một thông lệ trong khoa học, công trình sau khi được công bố đã được các đồng nghiệp xâm soi kĩ.  Chỉ chưa đầy một tuần sau khi công bố, có nhiều nhà khoa học chỉ ra một sai lầm quan trọng trong công trình nghiên cứu.  Đến bây giờ thì không phải phát hiện của công trình nghiên cứu, mà chính là sai lầm của công trình nghiên cứu đã trở thành một đề tài thời sự.

Công trình nghiên cứu có thể tóm lược như sau: các nhà nghiên cứu phân tích trên 300,000 ngàn markers (gọi là SNP) xuyên suốt 23 nhiễm sắc thể trên 1055 người có tuổi thọ trên 100 tuổi và 1267 người có tuổi thọ trung bình (gọi là nhóm chứng).  Đây là mô hình nghiên cứu hay được gọi là genomewide association study (GWAS) mà nhóm của tôi cũng từng làm.  Dùng phương pháp phân tích Bayes rất cẩn thận, họ phát hiện 150 SNP (trong số trên 30 vạn SNP) có thể phân biệt người “trường thọ” với người sống thọ trung bình.  Điều đáng ngạc nhiên là những biến thể SNP (tạm gọi là gene) hiện diện trong nhóm “trường thọ” cũng chính là những gene có liên quan đến các bệnh như tim mạch, cao huyết áp, và dementias. Nhưng phần lớn những người trường thọ không mắc những bệnh này cho đến lúc cuối đời!

Nhiều nhà khoa học đều nghĩ kết quả có vẻ quá tốt hơn (hay nói theo tiếng Anh là “too good to be true”).  Thông thường, một nghiên cứu ở dạng này chỉ phát hiện khoảng 10-50 SNP, nhưng nghiên cứu này phát hiện đến 150 SNP!  Câu hỏi đặt ra là có phải đây là kết quả dương tính giả?  Thế là họ bắt đầu tìm hiểu kĩ dữ liệu của nghiên cứu, và phát hiện một vấn đề kĩ thuật rất quan trọng có thể chính là nguyên nhân của kết quả trên (chỉ “có thể” thôi).

Để phân tích gene, họ sử dụng 2 loại chip do công ti sinh học Illumina (San Diego) sản xuất.  Phần lớn (khoảng 90%) đối tượng nghiên cứu được phân tích bằng loại chip 370-Quad, và mỗi đối tượng có 370,000 SNP.  Nhưng sau đó, loại chip này không còn trên thị trường, nên các nhà nghiên cứu phải dùng một chip khác có tên là 610-Quad để phân tích cho 10% số đối tượng còn lại.  Với chip 610-Quad họ có thể phân tích 610,000 SNP.  Như vậy, ở đây có vấn đề về sự nhất quán của dữ liệu: trong khi 90% đối tượng có 370,000 SNP, thì 10% còn lại có đến 610,000 SNP, tức là 2 kết quả khác nhau.  Đó là vấn đề cấu trúc của dữ liệu gene.

Tất cả những chi tiết trên đây không hề được mô tả trong bài báo khoa học. Bài báo trên Science chỉ có 4 trang giấy, không hề nhắc đến vấn đề cấu trúc dữ liệu.  Tuy nhiên, phần phụ lục dài gần 60 trang thì mô tả rất rõ cách phân tích gene ra sao và các mô hình phân tích dữ liệu.  Nói chung người ta học được nhiều từ các chi tiết này.  Cần nói thêm rằng ngày nay các tập san khoa học lớn yêu cầu tác giả cung cấp chi tiết nghiên cứu trong phần phụ lục.

Chính qua phần phụ lục này mà các nhà nghiên cứu mới phát hiện vấn đề của công trình nghiên cứu.  Vấn đề thứ nhất là chip 610-Quad có sai sót về mặt kĩ thuật và có thể cho ra kết quả gene không chính xác.  Những ai làm về nghiên cứu di truyền có tầm cỡ đều biết được vấn đề kĩ thuật này.  Ai cũng tránh xa chip 610-Quad.  Ấy thế mà nhóm nghiên cứu Đại học Boston phát biểu rằng họ … không hề biết!  Vấn đề thứ hai là sự bất tương đồng giữa 2 chip sử dụng trong phân tích gene.  Có thể nào những người trường thọ có những SNP do chip 610-Quad?  Đó là câu hỏi mà các nhà nghiên cứu đặt ra hiện nay.

Ngay sau phát hiện này, nhiều người lên tiếng trên các tập chí hay báo đại chúng như tờ New York Times, Newsweek, và tập san khoa học Nature. Thế là thay vì công trình nghiên cứu là một đề tài thời sự, thì vấn đề kĩ thuật của công trình trở thành đề tài thời sự!  Có người chất vấn rằng tại sao Science lại công bố một công trình “xoàng” như thế!  Còn Science cũng tổ chức họp báo và tuyên bố rằng họ đã làm hết sức mình, làm đúng qui trình, tức là công trình đã qua 3 chuyên gia hàng đầu bình duyệt cẩn thận.  Hiện nay, hai nhà nghiên cứu của Đại học Boston đang phân tích lại dữ liệu và sẽ công bố kết quả nay mai.

Trong khi chờ đợi kết quả của phân tích, người viết bài này đoán rằng kết quả sẽ chẳng thay đổi bao nhiêu.  Kinh nghiệm tôi cho thấy sai sót trong SNP thường dao động từ 1-5%, và với tần số đó vẫn không thay đổi được kết luận của công trình nghiên cứu với nhiều vạn SNP và hơn 2000 đối tượng.  Nói như thế không có nghĩa là không ghi nhận sai sót mà nhóm tác giả đáng lẽ phải biết.

“Sự cố” này cung cấp vài bài học quí báu trong nghiên cứu khoa học:

Thứ nhất là không bao giờ tin những gì tác giả viết trong phần kết luận, mà phải đọc cẩn thận phần phương pháp và kết quả để đi đến kết luận cho riêng mình.  Đọc bài báo khoa học mà chỉ đọc phần kết luận thì chẳng khác gì phóng viên đọc bài báo khoa học; người làm khoa học phải chuyên sâu hơn phóng viên. Nhà khoa học phải nghiền ngẫm và “sống” với dữ liệu, chứ không thể đọc lớt qua được.

Thứ hai là lúc nào cũng xem xét đến những chi tiết nghiên cứu, chứ đừng nên xem kết quả của họ là chính.  Kết quả tùy thuộc vào cách làm, cho nên biết được cách họ làm tức là chúng ta hiểu được tại sao có kết quả đó. Trong công trình này, phải nói là khen tác giả đã mô tả quá chi tiết, quá kĩ để đồng nghiệp có thể xem xét. Tôi xem đây là một phần phụ lục tiêu biểu của một bài báo khoa học.

Thứ ba là bài học làm nghiên cứu: trước khi công bố cần phải kiểm tra cẩn thận, coi trước xem sau từng số liệu và chi tiết.  Một bài báo như bài vừa đề cập chỉ có 4 trang nhưng chi tiết phương pháp lên đến 60 trang thì khó có cá nhân nào có thể kiểm tra chính xác từng chi tiết một, nhưng đó là điều khoa học cần.  Phải kiểm tra từng số liệu một.  Không có chuyện “du di” (như kiểu Việt Nam).  Nếu không kiểm tra thì rất dễ bị đồng nghiệp thế giới chất vấn là một phen “đỏ mặt” (dù trong trường hợp này chẳng làm thay đổi kết luận – tôi tin thế).

Sau cùng là cơ chế bình duyệt vẫn chưa hoàn hảo.  Rõ ràng là đáng lẽ các chuyên gia bình duyệt phải phát hiện lỗi kĩ thuật, nhưng họ không!  Có thể cả 3 người duyệt bài chưa bao giờ đọc phần phụ lục!  Nói gì thì nói, dù cơ chế bình duyệt không hoàn hảo, nhưng vẫn là cơ chế tốt nhất mà khoa học có hiện nay.

Tuy nhiên, qua sự cố này chúng ta thấy khoa học rất dân chủ, và … vui.  Một khi kết quả được công bố liền bị các đồng nghiệp xăm soi, và qua đó cũng học được rất nhiều bài học.

Nguồn: từ blog của GS Nguyễn Văn Tuấn – nguyenvantuan.net