Go Back   Diễn đàn Sinh học Việt Nam > Giảng đường > Tin sinh học

Tin sinh học Một bộ môn mới đầy triển vọng

Trả lời
 
Ðiều Chỉnh Xếp Bài
Old 27-08-12, 21:55   #11
pththao
Thành viên
 
pththao's Avatar
 
Tham gia ngày: Apr 2010
Đến từ: Germany
Bài gửi: 257
Thanks: 165
Thanked 193 Times in 139 Posts
Em chưa vẽ được cái histogram để đánh giá số liệu, tuy nhiên nhìn qua cho thấy số liệu có vẻ long-tailed, phân bố có vẻ rất không chuẩn nên chắc không dùng được Fisher test. Long-tailed cũng là nguyên nhân khó khăn xác định các outliers. Vì phân bố không rõ ràng, nếu dùng classical hypothesis test có lẽ nên dùng non-parametric methods chẳng hạn sign-test hoặc rank-test? Trường hợp này outliers sẽ ảnh hưởng rất nhỏ và có lẽ không cần phải loại bỏ.
pththao is offline   Trả Lời Với Trích Dẫn
Old 27-08-12, 22:10   #12
Đinh Văn Khương
Thành viên
Thread starter
 
Đinh Văn Khương's Avatar
 
Tham gia ngày: Jul 2004
Bài gửi: 1,005
Thanks: 128
Thanked 320 Times in 192 Posts
Trích:
Nguyên văn bởi pththao View Post
Em chưa vẽ được cái histogram để đánh giá số liệu, tuy nhiên nhìn qua cho thấy số liệu có vẻ long-tailed, phân bố có vẻ rất không chuẩn nên chắc không dùng được Fisher test. Long-tailed cũng là nguyên nhân khó khăn xác định các outliers. Vì phân bố không rõ ràng, nếu dùng classical hypothesis test có lẽ nên dùng non-parametric methods chẳng hạn sign-test hoặc rank-test? Trường hợp này outliers sẽ ảnh hưởng rất nhỏ và có lẽ không cần phải loại bỏ.
hi Thảo, mình mất khoảng 10 phút để tạo ra các số liệu này và khoảng thời gian tương tự cho hiệu chỉnh lại bài toán cho phù hợp với những ảnh hưởng mà outliers có thể gây ra cho thí nghiệm. Một đặc điểm rất chung của các thí nghiệm về tập tính động vật là số liệu thu được hiếm khi nào có phân bố chuẩn, cực hiếm vì hành vi của động vật biểu hiện rất khác nhau ngay trong cùng một điều kiện.

Mình sẽ chờ đợi thêm xem bạn và các anh chị em khác giỏi về thống kê sinh học có cao kiến gì không?
Đinh Văn Khương is offline   Trả Lời Với Trích Dẫn
Old 28-08-12, 21:45   #13
pththao
Thành viên
 
pththao's Avatar
 
Tham gia ngày: Apr 2010
Đến từ: Germany
Bài gửi: 257
Thanks: 165
Thanked 193 Times in 139 Posts
Em tóm tắt cách em hay làm với một thí nghiệm đơn: vẽ histogram hai dãy số liệu trên cùng một hình và đánh giá mức độ tin tưởng của giả thiết thống kê bằng mắt; bước đánh giá bằng mắt quyết định chính yếu "niềm tin" rằng mình hay bác bỏ hay chấp nhận giả thiết trơ; việc chọn và thực hiện test thống kê chỉ là vấn đề đưa ra một con số để thảo luận và củng cố niềm tin quan sát.

Trong trường hợp này histogram của cả hai cho thấy giả thiết mean khác nhau có vẻ không được chấp nhận (không mang theo công cụ vẽ chuẩn nên hình k được rõ, em không upload được). Tiếp theo quan sát dạng histogram, như đã nói, em sẽ chọn non-parametric test như sign- hoặc rank- test.

Thế thôi, em hết ý kiến ạ :D
pththao is offline   Trả Lời Với Trích Dẫn
Old 28-08-12, 21:57   #14
pththao
Thành viên
 
pththao's Avatar
 
Tham gia ngày: Apr 2010
Đến từ: Germany
Bài gửi: 257
Thanks: 165
Thanked 193 Times in 139 Posts
À, phải nói thêm là các qui tắc xác định outliers 3-sigma hoặc 4-sigma là áp dụng cho các phân bố chuẩn và gần chuẩn. Với các phân bố có long-tails thì qui tắc này không dùng được, và thực tế là các số liệu extreme như vậy không phải là các outliers (theo cách mà em vẫn gọi), chúng tuân theo các quy tắc phân bố của extrem values và phải được đối xử bình đẳng. Các test-parameteric đa số cũng dựa trên giả thiết chuẩn hoặc gần chuẩn, hoặc một dạng phân bố đã biết để tính p-value nên về cơ bản cũng không dùng được mà phải dùng các non-parameteric (không có giả thiết về distribution của số liệu, còn gọi là distribution-free) như em đã trình bày.
pththao is offline   Trả Lời Với Trích Dẫn
Old 29-08-12, 03:18   #15
Đinh Văn Khương
Thành viên
Thread starter
 
Đinh Văn Khương's Avatar
 
Tham gia ngày: Jul 2004
Bài gửi: 1,005
Thanks: 128
Thanked 320 Times in 192 Posts
Trích:
Nguyên văn bởi pththao View Post
Em tóm tắt cách em hay làm với một thí nghiệm đơn: vẽ histogram hai dãy số liệu trên cùng một hình và đánh giá mức độ tin tưởng của giả thiết thống kê bằng mắt; bước đánh giá bằng mắt quyết định chính yếu "niềm tin" rằng mình hay bác bỏ hay chấp nhận giả thiết trơ; việc chọn và thực hiện test thống kê chỉ là vấn đề đưa ra một con số để thảo luận và củng cố niềm tin quan sát.
ặc ak ak, cách làm này lần đầu tiên mình mới được biết đến.
Đinh Văn Khương is offline   Trả Lời Với Trích Dẫn
Old 30-08-12, 23:29   #16
pththao
Thành viên
 
pththao's Avatar
 
Tham gia ngày: Apr 2010
Đến từ: Germany
Bài gửi: 257
Thanks: 165
Thanked 193 Times in 139 Posts
Thực tế là thế, theo kinh nghiệm của em người xử lý số liệu nên bắt đầu với mô tả hình ảnh (visualisation) ở dạng nguyên thuỷ nhất nếu có thể. (Có một câu dẫn của ai đó: "You have to look at the data many times before modelling them."). Khi kết luận có thể phỏng đoán cảm tính từ đầu thì người ta mới chọn, thiết kế test và mô hình. Từ đó việc thiết kế test cũng được hướng đạo, việc đánh giá và loại bỏ các yếu tốt ngoại lại không mong muốn cũng dễ dàng. Trường hợp tín hiệu không rõ ràng trên mô tả hình ảnh (visualisation) thông thường là báo hiệu các kết quả test không thống nhất (robust), trừ khi có một test hoặc mô hình thực sự (super) tốt (rất hiếm).
pththao is offline   Trả Lời Với Trích Dẫn
Old 31-08-12, 15:34   #17
Đinh Văn Khương
Thành viên
Thread starter
 
Đinh Văn Khương's Avatar
 
Tham gia ngày: Jul 2004
Bài gửi: 1,005
Thanks: 128
Thanked 320 Times in 192 Posts
Trích:
Nguyên văn bởi pththao View Post
Thực tế là thế, theo kinh nghiệm của em người xử lý số liệu nên bắt đầu với mô tả hình ảnh (visualisation) ở dạng nguyên thuỷ nhất nếu có thể. (Có một câu dẫn của ai đó: "You have to look at the data many times before modelling them."). Khi kết luận có thể phỏng đoán cảm tính từ đầu thì người ta mới chọn, thiết kế test và mô hình. Từ đó việc thiết kế test cũng được hướng đạo, việc đánh giá và loại bỏ các yếu tốt ngoại lại không mong muốn cũng dễ dàng. Trường hợp tín hiệu không rõ ràng trên mô tả hình ảnh (visualisation) thông thường là báo hiệu các kết quả test không thống nhất (robust), trừ khi có một test hoặc mô hình thực sự (super) tốt (rất hiếm).
Không phủ nhận là rất nhiều lần mình đã từng visualisation số liệu trước khi quyết định sử dụng trực tiếp hay chuyển dạng số liệu và cũng nghĩ trong đầu về việc số liệu kiểu này thì sẽ lựa chọn model xử lý kiểu gì. Tuy nhiên, sau đó mình vẫn thường chạy thử để kiểm tra xem cái nào là "best fit" dựa trên thống kê chứ không phải dựa vào "mắt thường" hay "niềm tin" vì như thế quá chủ quan.

Mình không biết có mô hình test nào là supermodel hay không. Có lẽ không vì mỗi cái có thế mạnh riêng vì thậm chí ngay cả với 1 model cụ thể chạy trên cùng 1 software ở các phiên bản khác nhau đôi khi có phiên bản thì chạy được, có phiên bản thì không chạy được. Mình đã từng được nghe một câu chuyện về một anh chàng sau khi xử lý số liệu viết báo và gửi tạp chí, sau khi được phản biện góp ý, cần phải chạy lại 1 model trong đó để kiểm tra lại. Tuy nhiên, khi chạy lại trên software (đã được nâng cấp) thì nó không chạy nữa (thử đủ mọi cách nó không chạy). Thời điểm đó, software phiên bản cũ đã hết hạn sử dụng.

Mình gặp vấn đề tương tự với cái này: http://www.sinhhocvietnam.com/forum/...ad.php?t=15434 , chạy mãi cũng không được và cuối cùng phải đổi model.

Quay trở lại với bài toán giả tưởng mà mình tạo ra, có ai có ý kiến gì về nó không?
Đinh Văn Khương is offline   Trả Lời Với Trích Dẫn
Old 13-09-12, 14:40   #18
Đinh Văn Khương
Thành viên
Thread starter
 
Đinh Văn Khương's Avatar
 
Tham gia ngày: Jul 2004
Bài gửi: 1,005
Thanks: 128
Thanked 320 Times in 192 Posts
mới đọc được cái này, có thể bạn cũng có interest với nó:

A protocol for data exploration to avoid common statistical problems.

trên tạp chí: Methods in Ecology & Evolution

Bài báo được trích dẫn 77 lần trong hơn 2 năm qua (theo web of science), cũng là một con số ấn tượng :). Tại sao thế? Tác giả bài báo có ý kiến như sau:

"… (a) it provides people with a kind of “recipe” for doing a preliminary analysis, but also tries not to oversimplify the problems or present it as a one-size-fits-all solution; (b) it uses real and messy data sets, the kind that ecologists can relate to; and (c) it was written with practicing ecologists in mind.”



Cảm ơn bạn williambui đã down load bài báo giúp.

http://www.sinhhocvietnam.com/forum/...=2411&page=281

ĐK
Đinh Văn Khương is offline   Trả Lời Với Trích Dẫn
Thanked by
Trả lời

Ðiều Chỉnh
Xếp Bài

Chuyển đến


vB 3.8.7 Copyright © 2000 - 2018, Jelsoft Enterprises Ltd.