5ちゃんねる ★スマホ版★ ■掲示板に戻る■ 全部 1- 最新50  

■ このスレッドは過去ログ倉庫に格納されています

生物学での統計学スレ

1 :名無しゲノムのクローンさん:2005/09/27(火) 07:14:05
生物学者が弱いといわれる統計学
難しい事はいらない!
要は有為かどうかわかればよい!

という人から
統計学を極めたい!
と言う人まで
マターリと議論しましょう



2 :名無しゲノムのクローンさん:2005/09/27(火) 07:50:48
とりあえず、多群比較でも
t検定で終わってしまう状況に萎え

3 :名無しゲノムのクローンさん:2005/09/27(火) 07:56:25
漏れの研究室のボスは
何でもかんでもノンパラでやるっていう
ポリシーを誰にでも突きつける。
うるさいんだけど。マジうざい。

4 :名無しゲノムのクローンさん:2005/09/27(火) 08:10:39
何でも良いから二つの群があって有為かどうか知りたい場合は

http://www.graphpad.com/quickcalcs/contingency1.cfm
で良いの?


5 :名無しゲノムのクローンさん:2005/09/27(火) 10:04:45
>>4
だめ。ここは生物版なので言っておくけど、生化学データを見るときはダメ。
例えば中性脂肪が高い人、低い人というふうにしか分けられないので、カイ2乗検定はデータの分布状況をあまり反映できない。
もちろん、高い低いを分ける基準も明確にしないといけないし。有意差が出るのでこの値を境界に高い、低いとしたというのではダメ。
オレはt検定、分散分析派。多群間比較ならボンフェ派。


6 :名無しゲノムのクローンさん:2005/09/27(火) 13:36:30
Fisherというのはどうなんだろう
ややこしくてよくわからん


7 :名無しゲノムのクローンさん:2005/09/27(火) 13:51:45
Fisherの正確な検定(Fisher's exact test)ですか?
これはカイ2乗分布への近似が悪くなるほど頻度の低いものを見るとき、
カイ2乗検定の信頼性が損なわれる。このときにFisherを用いて正確なp値を算出するとよい。
実際には、新薬の臨床試験で副作用の有無などで使われたりする。

8 :名無しゲノムのクローンさん:2005/09/27(火) 20:26:12 0
SDとSEしか知らんのだけど。
pってなんだっけ。
超エロいヒト教えて。

9 :名無しゲノムのクローンさん:2005/09/27(火) 21:44:11 ID:0
>>6、7
多重比較にもFisherのtestってあるよね。
ただ、4群以上で有意差が出やすくなるので、
あんまり使えないけどね。
同じ人なのかな?
>>8
ぽっしびりてぃー?

10 :名無しゲノムのクローンさん:2005/09/27(火) 22:22:30 ID:0
>>8
pが0.05以下なら有意です
それ以外は知らんが、それで十分だろ


11 :名無しゲノムのクローンさん:2005/09/27(火) 22:24:50 ID:0
例えば細胞をある染料で染めたとき、赤に染まるものと青に染まるものがあって
それ以外は考えられないとき
Aという細胞では赤が20、青が5
Bという細胞では赤が12、青が9だった
これは有意なのか?
何を検定に使ったらよいのかもわからん
勉強しようとしても用語が不明で挫折


12 :名無しゲノムのクローンさん:2005/09/27(火) 22:26:55 ID:0
>>5>>7は生物学者?
なんでそんな詳しいの?
そもそも、教室のボス自ら統計のことは全くわからず適当にやるのが生物学の王道だろ


13 :名無しゲノムのクローンさん:2005/09/27(火) 22:46:24
ども5,7っす。
私は分子生物の研究者です。
今は携帯なので少し面倒、また明日質問に答えたいと思います。
おやすみ〜。

14 :名無しゲノムのクローンさん:2005/09/27(火) 22:55:17
>>1
まず、有意と有為と優位と有位の違いを調べろ。

15 :名無しゲノムのクローンさん:2005/09/27(火) 23:07:25
よく気付いたね。
統計では有意差だよね。

16 :名無しゲノムのクローンさん:2005/09/27(火) 23:52:04

>>自分の人生を棒に振ってまで、インチキ統計手法使う学者なんてどこにいるんだ?
>>じゃあ、学者が素人でも分かるような統計上のミスして発表した事例を教えてくれよ。よくあるんだろ?www


心理学版で↑のような統計厨の書き込みを見ました。
質問ですが、インチキ統計や誤った統計に基づいた研究は生物学でもあると思うのですが、生物学でインチキ統計を使った研究の実例はなにがありますか。


17 :名無しゲノムのクローンさん:2005/09/28(水) 00:01:27
今は二つの標本(母集団)がどのような統計処理をすれば
同等(分散、平均)と言えるかを考えています。

α=0.05 1-β=0.8 で帰無仮説が棄却されなかったら
良いいうようなこときいたことがあるのですが、、、。

生物板でも統計学なねた的にOKですよね。以前、質問スレで
生物統計の質問したら、ここは生物板、日本語読める?と
煽られてかなしかったっす。

18 :8:2005/09/28(水) 01:09:38
pの略語を知りたいのでは無く、
計算方法を知りたいのです。
こんな統計ダメダメ野郎に、
親切に教えて!
超エロすぎるヒト!
理論よりもエクセルで希望!

19 :名無しゲノムのクローンさん:2005/09/28(水) 01:17:10
>理論よりもエクセルで希望!

良い事いうね!


20 :名無しゲノムのクローンさん:2005/09/28(水) 01:21:29
>>11
あのねー、”統計学”だよ。
一回しかやっていない実験で有意差があるかどうかなんて言えないの。

21 :名無しゲノムのクローンさん:2005/09/28(水) 07:39:17
??
46回やっている気がするが。

22 :名無しゲノムのクローンさん:2005/09/28(水) 08:30:13
>>20>>21のどちらかが統計馬鹿ということだね


23 :5,7っす:2005/09/28(水) 09:47:38
>>9
確かに有意差の出やすい多群間比較の検定はあるよね。
でも、用途に応じて使い分けできれば理想です。

↓post hoc検定
FisherPLSD は多重t統計量を用いるすべての対の比較だったと思います。
Bonferroni/Dunn はすべての対比較であり、有意差は出にくい検定で私はこれを推奨しますね。
 論文書くときは「ボンフェで有意差でるのなら間違いない」と自信が持てます。

24 :5,7っす:2005/09/28(水) 10:04:52
post hoc 検定の有意差の出し方の違い。
@2群の組み合わせすべてを比較する検定
 A,B,C群の比較の場合 → A-B、B-C、C-A の比較をする
 ○Turkey-Kramer, Bonferroni/Dunn
●Scheffe, Games-Howell, Fisher's PLSD, Student-Newman-Keuls

A決められたコントロール群に対して各群を比較
 Control-A,Control-B,Control-c と比較する
 ○Dunnet
●Bonferroni/Dunn

※○…分散分析で有意差が出なくても使用可能
 ●…分散分析で有意差が出ないと使えない。使っても意味無い。

25 :5,7っす:2005/09/28(水) 10:08:32
あ、あと、データが正規分布しているかも大事です。

  正規性必要…Fisher, Turkey-kramer, Student-N-K,Bonferroni/Dunn, Dunnet

  正規性不要…Scheffe, Games/Howeell

だったかと。
分散分析前に正規性の検定もした方がいいと思います。

26 :5,7っす:2005/09/28(水) 10:14:39
>>11
>Aという細胞では赤が20、青が5
>Bという細胞では赤が12、青が9だった
>これは有意なのか?

多分、カイ2乗検定でいいと思います。(p=0.00004になりました)
まずはクロス集計表を作成することをお薦めします。まずはそこから。
クロス集計表をつくったあと、簡単な統計の本のカイ2乗検定の章を読んでみると理解できるかもです。

27 :11:2005/09/28(水) 11:51:47
>>25
ある分布を仮定する統計解析をパラメトリック、
仮定しないものをノンパラメトリックという。

28 :5,7っす:2005/09/28(水) 12:09:04
ノンパラって順位をつけてるだけじゃないの?
正規分布(対数正規分布)していない、等分散性もないデータの場合にノンパラするよね。
Kruskal-Wallisの順位検定とか。

29 :名無しゲノムのクローンさん:2005/09/28(水) 13:08:13
probability value

30 :名無しゲノムのクローンさん:2005/09/28(水) 13:38:34
>>11
Fisherの正確確率検定だとP=0.117になるな。
カイ2乗検定でもいいのだが、>>26は多分計算を間違っている。

31 :名無しゲノムのクローンさん:2005/09/28(水) 14:18:21
オレも計算してみたが、別に計算結果は合ってるよ。
フィッシャーを実行してないだけじゃねーの?
フィッシャーをやった理由を教えてくれ。
どう考えててフィッシャーをやるべきと判断したのか

32 :名無しゲノムのクローンさん:2005/09/28(水) 14:59:25
カイ2乗検定は所詮近似なのでどちらでも良いのならFisherを使うべき。
また、カイ2乗検定は小さい期待値があるとPが小さい方へずれる傾向がある。
だから期待値が5以下のセルがある場合は使えないとされている。
>>11の場合、最小の期待値は6.39だから、できればカイ2乗検定は使いたくない場面だ.

33 :名無しゲノムのクローンさん:2005/09/28(水) 15:04:50
>>31

フィッシャーだったら有意じゃない
だからフィッシャーをせずに有意として発表

これって捏造ですか?
教えてくださいタイ(ry


34 :5,7っす:2005/09/28(水) 15:28:08
フィッシャーやってみました。

p=0.11721 となりました。有意とはなりません。

A−青が5という数字が小さい数字ということなんですが、私がフィッシャーを使うのは
例えば、A-赤が20、A-青が1という風に、極端に差がついたときですね。
A-青=0とA-青=1のときの確率を足し算して求めます。
どうでしょうか?私も未熟なので、違ってたら指摘してください。

35 :名無しゲノムのクローンさん:2005/09/28(水) 18:08:46
>>33
てか、それではアクセプトされんかも。

36 :5,7っす:2005/09/28(水) 18:23:49
>>16
外国人は外れ値を削除したり、有意差出すために工作する輩は多い。これは不正行為。

―――――― ここから下はOK ―――――――――

高血圧など年齢とともに上昇していくような性質のある数値は、
例えば有意差が出ない集団A,Bを扱うとき、血圧を高値に吊り上げている高齢者(例えば30歳以上)を解析から除外して、
有意差を出すのは正当な手段です。
不当な手段、正当な手段を間違わなければ有意差を出す手段としてイイと思う。
論文には、標本集団の年齢層、平均年齢などをきちんと偽りなく明記しておくわけだからね。

37 :18:2005/09/28(水) 21:53:05
おたくスレでつね

38 :名無しゲノムのクローンさん:2005/09/28(水) 22:10:24
ノンパラ詳しい人いますか?

39 :名無しゲノムのクローンさん:2005/09/28(水) 22:24:37
いや。ここは良スレ。
何か勉強した気になる

40 :名無しゲノムのクローンさん:2005/09/28(水) 23:03:58
>>16
真面目にやる気がなく、見た目でP<0.05と書いた人を知っている。レフリーの突っ込みもなかったようだ。

41 :名無しゲノムのクローンさん:2005/09/28(水) 23:55:56
>>30、31
やるんなら、フィッシャーでしょうが、結局は再現性の問題ですよね。少数標本の場合は特に。
捏造ではないんでしょうが、科学として意味があるかどうかは、実のところ統計では答えが出せないんでしょう。


42 :?名無しゲノムのクローンさん:2005/09/29(木) 00:04:32
臨床研究で一番気になるのは、相関グラフを描いて検定するときheteroscedasticityを
まったく考慮していないこと。あれはなんとかならないかなあ。あまりに無知。

43 :27:2005/09/29(木) 01:49:05
あっ、11じゃなかった。自分は>>21

44 :名無しゲノムのクローンさん:2005/09/29(木) 05:19:37
>>38
詳しいことを言われても生物学者は理解できない。
パソコンソフトで、質問に答えていく方式でp値がでるようなソフトないかなぁ。


45 :名無しゲノムのクローンさん:2005/09/29(木) 05:20:52
そういえば昔、東大が作ったFISHERっていう統計ソフトあったな
強力なコピープロテクトがかかっていたけど、良ソフトだった。


46 :27:2005/09/29(木) 05:39:44
生物学者(生物学科の学生ではない)は統計に結構詳しいと思う。
勿論、統計とは無縁の人も多いけど。

統計処理を行う場合、各手法の意味を十分に理解しておかないと
とんでもないことをしてしまう。

そもそも、そういった理解が無い場合は、自分の目的にあった統計処理法を
選ぶことさえほとんど不可能だろうと思う。

47 :名無しゲノムのクローンさん:2005/09/29(木) 06:21:29
統計に関する洋書でおすすめってありますか?
独習もできる教科書的なやつを探してるんですが。

48 :5,7っす:2005/09/29(木) 10:48:02
ノックアウトマウスとワイルドタイプマウスの時系列での比較実験なんて
まさに統計学ですからね。
その他、SNPや疫学、薬など統計使いまくり。数学嫌いな人も必要に迫られて勉強するようになる。

>>47
私の場合、洋書には専門的な部分を求めてますので、教科書的な本は知りません。
疫学と数理生物の本は読んだことがありますけど、内容も本のタイトルも忘れました。

49 :名無しゲノムのクローンさん:2005/09/29(木) 11:05:32
>>48
> 私の場合、洋書には専門的な部分を求めてますので、教科書的な本は知りません。
では和書でいい本はありますでしょうか?もしおすすめがあれば教えてください。


50 :5,7っす:2005/09/29(木) 12:45:10
>>49
入門統計解析法 日科技連 永田靖 著

を読んでました。これよりも簡単な本があるかもしれませんが、私が持ってる中では一番簡単。

51 :名無しゲノムのクローンさん:2005/09/29(木) 20:42:38
エクセルって主成分分析できるんですか?

52 :名無しゲノムのクローンさん:2005/09/29(木) 20:55:08
visual basic で何でも出来るよ。

53 :名無しゲノムのクローンさん:2005/09/29(木) 21:20:26
VBだり〜。
fortranとC言語、C++しか知らん。

54 :名無しゲノムのクローンさん:2005/09/29(木) 22:44:45
じゃあ、それでやればいいじゃんw

55 :名無しゲノムのクローンさん:2005/09/30(金) 07:34:51
多変量解析の本でいいのはないんですか?

56 :名無しゲノムのクローンさん:2005/09/30(金) 07:52:29
大村平 著の「〜のはなし」シリーズ(日科技連)はわかりやすいと思う

57 :名無しゲノムのクローンさん:2005/09/30(金) 10:48:57
生物統計

58 :名無しゲノムのクローンさん:2005/09/30(金) 11:31:16
数理生態の俺蛾やってきました

59 :名無しゲノムのクローンさん:2005/09/30(金) 12:39:07
>>58
生態系を微分方程式の数理モデルで表現して、捕食者&被食者の個体数を
数値シミュレーションするヤツ?

60 :名無しゲノムのクローンさん:2005/09/30(金) 13:31:37
生態系を微分方程式の数理モデルで表現して意味あるのか問いたい。

61 :名無しゲノムのクローンさん:2005/09/30(金) 14:55:18
もしかして環境影響調査?

62 :5,7っす:2005/09/30(金) 17:02:15
私は多変量解析は
多変量統計解析法 現代数学社 田中豊、脇本和昌 著
を読みました。多変量は難しいですね。

生物統計は、
らくらく生物統計学 中山書店 足立堅一 著
バイオサイエンスの統計学 南江堂 市原清志 著
ですね。どれもお勧めです。


63 :58:2005/09/30(金) 20:37:16
個体群動態、植物の成長、個体間競争、なんでもモデル化します
確かに再現性の低いモデルにしがみついて・・・って言われても仕方が無い面もあるかな。
数式で表現しきれるほど生態系が単純じゃないのは当たり前だし。
「社会の役に立ちたい」ってよりも「自然の不思議を解き明かしたい」って欲求が強い分野な希ガス。

まあ、最近は生物多様性がどうたらとか保全生態学がどうたらとかで需要も出てきてるみたい。
後はどんな森林管理をしたらどれだけの材木が得られるか、とかもあるかな。林学と被るけど

64 :名無しゲノムのクローンさん:2005/09/30(金) 21:32:04
その不思議を解き明かすのに、なぜ数理モデルが必要なのかが理解できない。

いくらモデルがうまく観察データを説明したとしても、
観察条件が変わったら全くあわなくなるかも知れない。
つまり、変数や項が増えるかも知れないし、
モデルは実体とは全く関係ないものだったのに、たまたまうまく説明できている
だけかもしれない。

そんな研究をするくらいなら、ある観察に内在する因果関係をもっと直接的に
解明する研究をする方が良いのではないかと思える。

65 :名無しゲノムのクローンさん:2005/09/30(金) 23:34:12
まぁ数理モデルにそれほど崇高なものを求めるのは厳しい。
免疫系、肝炎、白血病、生態系の数理モデルの洋書を読んだが、最後に
筆者が「生物学者に認められてない学問」って書いてた。
やっぱ数学と生物やるならバイオインフォマティクス、システム細胞学とかだな

66 :名無しゲノムのクローンさん:2005/10/01(土) 09:52:46
数理モデルが必要とされるのは、なによりもその予測性にあるんじゃないかな。
既知パラメータにどれだけの変動を与えると、個体群への影響はこれだけになる、
という予測に基づいて、開発したり保護策をプログラムしたりとか。
64の言うように、関係するあらゆるパラメータを考慮しないと正確な予測は
困難になるけれど、気候変動シミュレータなどのようなプロジェクトもあるし、
全く価値がないというわけではないと思う。
ミクロな関係性を重視することも必要だが、結局自然保護というのは
総体的なものでしょ。

67 :名無しゲノムのクローンさん:2005/10/01(土) 12:05:29
ミクロには見たら進化・系統・生態とかのマクロは胡散臭いのかね
あと集団遺伝学とか?

68 :名無しゲノムのクローンさん:2005/10/01(土) 12:06:04
×ミクロには〜
○ミクロの人から見たら

69 :名無しゲノムのクローンさん:2005/10/01(土) 12:30:47
別にうさんくさくは無いでしょうに

70 :名無しゲノムのクローンさん:2005/10/01(土) 14:43:20
農学の植物・動物の育種の人も統計詳しいと思う
分散分析は英国の農業試験場技師が考えたはず

71 :名無しゲノムのクローンさん:2005/10/01(土) 16:08:50
さすがはイギリス人やな。
確率論は賭博から発展したみたいね。フランスだっけか?

72 :名無しゲノムのクローンさん:2005/10/01(土) 20:55:34
探索的データ解析を取り入れている方います?
その解析に使ったデータも本解析に使用して問題ない?

73 :名無しゲノムのクローンさん:2005/10/02(日) 03:09:48
>>25

正規性じゃなくて等分散性が必要ないのです。
しかも正規性がないなら分散分析はできません。

74 :名無しゲノムのクローンさん:2005/10/02(日) 13:30:21
>>73
ん?
>>25の言ってることであってるよ。

75 :名無しゲノムのクローンさん:2005/10/02(日) 15:10:15
うん。
正規性の検定後、分散分析ってことだな

76 :名無しゲノムのクローンさん:2005/10/02(日) 23:01:52
治験をコーディネートしてみたいよね。
これも統計つかうんですか?

77 :5,7っす:2005/10/03(月) 15:46:59
>>76
確か薬剤師免許がいるとおもいます。かなり難しい職業じゃないかと。

78 :名無しゲノムのクローンさん:2005/10/03(月) 22:29:57
みなさんはどういった統計手法用いてますか?

79 :名無しゲノムのクローンさん:2005/10/04(火) 23:41:18
ぷいぷい

80 :名無しゲノムのクローンさん:2005/10/05(水) 00:05:40
厨な質問かも知れませんが・・・
2処理区(AとB)で10個ずつのデータを比較するとします。
ところがAでは9個しかデータが取れず、等しいデータ数で
比較をしたいとします。このような時は乱数か何かを用いて
Bからデータを1つ捨てて9個としてAとBの比較をしても良いの
ですか?

81 :名無しゲノムのクローンさん:2005/10/05(水) 07:43:43
うーん。むずかちぃ

82 :5,7っす:2005/10/05(水) 12:00:38
検査や実験で取られたデータは欠測値が多いのが現実です。
統計の本には、エクセルの行列が完璧に数値で埋まってますが、これは極めてマレなケースです。
欠測値があるデータを扱うときは、そのサンプルを除外するか、特定の変数に
欠測値が集中している場合はその変数を除外するといいと思います。
10個と9個の異なるサンプル数でも、種々の検定は可能です。
欠測値を他の観測値からの予測値で補う方法もありますが、おすすめできないですね。

83 :名無しゲノムのクローンさん:2005/10/06(木) 07:27:39
確かに、実際のデータは穴空きやわな。
穴空きのみならず、データの数値の信憑性もあるよね。
自己申告の数値、たとえば一日の摂取エネルギーなんて適当。

84 :5,7っす:2005/10/06(木) 09:32:24
たしかに、一日の摂取エネルギーは、被験者の自己申告は適当だし、
各自の判断によって、摂取量が大きく異なってしまう。
栄養士さんが、被験者の自己申告をもとにFood intakeを計算するのですが、
これも各栄養士さんの解釈の程度によって数値が異なることもある。

Food intakeの数値が高い → 肥満傾向にある

これは当然のことだが、いまいちFood intakeの数値が信じられないのも事実ですね。

85 :名無しゲノムのクローンさん:2005/10/06(木) 18:17:11
生化学データを扱ってる(統計処理して論文書く)人いますか?
単位ってどうなんですか?
仮に単位をmg/dlからmmole/lに変更したら数値自体変わってしまいますよね?
何らかの論文規定や、暗黙の了解みたいなものがあって、どれか一つに決められているんですか?

86 :名無しゲノムのクローンさん:2005/10/06(木) 19:02:40
で、統計処理とどういう関係があるんだ?

87 :名無しゲノムのクローンさん:2005/10/06(木) 19:11:16
統計処理自体には関係ないかもな。
単位は各自好きなのを選ぶか、投稿したい論文を読んでみて、
他の人のを参考にするのが最適

88 :名無しゲノムのクローンさん:2005/10/06(木) 20:01:17


696 名前: ネム ◆ZSxIfyU42I [sage] 投稿日: 2005/10/06(木) 18:45:16 ID:6yCwdnMk
<問>
人はなぜ食べ物を噛み砕いて
細かくしてさらに消化するのでしょう

703 名前: ネム ◆ZSxIfyU42I [sage] 投稿日: 2005/10/06(木) 18:57:04 ID:6yCwdnMk
>>699
>>701
ありがと

特にため息氏は頭の回転が速いですね

私の回答は
体のエントロピーの増加を防ぐために、食べ物を無秩序にして採算を合わせている


http://etc4.2ch.net/test/read.cgi/wcomic/1128476396/l50
少年漫画のスレでインテリぶった真性コテ発見wwwwwwwwwww
理系ぶってるんで皆さん論破してやって下さいwwwwwwwwww




89 :名無しゲノムのクローンさん:2005/10/06(木) 20:03:54
のんたんだお
http://nontarou.exblog.jp/

90 :名無しゲノムのクローンさん:2005/10/06(木) 21:36:26
エラーバーって標準偏差か、標準誤差か、どっちをつかえばいいの?

91 :名無しゲノムのクローンさん:2005/10/06(木) 21:51:38
特に決まりはないと思う

92 :名無しゲノムのクローンさん:2005/10/06(木) 22:55:29
>>90
目的にふさわしい方を使えばいい。
そのグラフでばらつきの程度を示したいのなら、SD。
平均値の推定精度を示したいのなら、SE。

93 :名無しゲノムのクローンさん:2005/10/07(金) 00:37:00
>>92 おおっ、サンクス!だめもとでも、聞いてみるもんだな。

94 :91:2005/10/07(金) 07:00:34
なんだ。そーだったのか。
適当でスマン

95 :5,7っす:2005/10/07(金) 09:48:22
標準偏差は、「データ一つ一つのバラツキ」を示す基本統計量です。
これに対して、標準誤差は、「標本平均のバラツキ」を示す基本統計量になります。
換言すると、「標準誤差は平均値の信頼性」を表現しているのです。

ただ、棒グラフにエラーバーをくっつけたとき、標準偏差があまりにも大きいので、「見ばえ」が良くないとき、
標準偏差をサンプル数の平方根で割ってより小さい数値になる標準誤差を用いると、見てくれがよくなるので、
こういったときも標準誤差を用いるときもあります。この場合は、統計の理屈抜きなのであまり参考にはできません。
ほとんど場合において、標準偏差を用いればいいのではないでしょうか。

96 :5,7っす:2005/10/07(金) 09:58:05
バラツキの大きいデータ、例えば総コレステロール、アディポサイトカイン、やALT、AST。
これらのデータの標準偏差は非常に大きなものとなります。
平均値よりも大きな標準偏差が出てきてしまうことがあれば、エラーバーをマイナス方向に書くと、0よりも下に突き抜けてしまって
非常にかっこ悪い。このようなときに、標準偏差よりも小さな値になる標準誤差を用いて見てくれを良くする。
もちろん、このとき、エラーバーはS.E.を使用と、明記する必要がありにけり。
でも、やっぱり理想は標準偏差かな。不用意に標準誤差を使ってしまうと、
「何で標準誤差を使ったのか?バラツキが大きるのでは?標本集団はどんな集団なのか?」とカングラレテしまう。

逆にバラツキの小さい総タンパクなどは、一切余計なこと考える必要なしです。

97 :5,7っす:2005/10/07(金) 10:00:58
訂正です。

×「何で標準誤差を使ったのか?バラツキが大きるのでは?標本集団はどんな集団なのか?」

○「何で標準誤差を使ったのか?バラツキが大き過ぎるのでは?標本集団はどんな集団なのか?」

98 :名無しゲノムのクローンさん:2005/10/07(金) 12:53:24
なるほど。参考になるよ


99 :名無しゲノムのクローンさん:2005/10/07(金) 13:45:30
見てくれだけを気にする生物屋らしいスレ

100 :5,7っす:2005/10/07(金) 14:22:30
>>99
どの分野もそんなもんでしょ。
再現性を追及する分子生物学においては見た目は凄い大事じゃないかな?
何も生物や統計に限らず、「絶対に起こり得ない」結果はどの分野でも通用しないよ。

101 :名無しゲノムのクローンさん:2005/10/07(金) 19:58:34
統計の勉強しなきゃと思って、本見たけど、最初に載ってる
説明のもとになってるデータの表の意味すらわからない・・・

102 :名無しゲノムのクローンさん:2005/10/07(金) 20:12:34
ちょ、、、
ガンガレ。せめて平均値までは

103 :名無しゲノムのクローンさん:2005/10/07(金) 20:28:05
>102
いや、さすがに平均値の出し方くらいはわかるんだけど。
ここに著作権法にひっかからない程度にして表をかきこんでもよいかな。
夏の始め頃からずっとわからない。
わかる人には簡単なことなのかもしれないんだけど。

104 :102:2005/10/07(金) 22:15:18
書きこんでみたら?
数字を少し変えたり、工夫したらいいんじゃないかな。
でもオレに、期待しないよーに

105 :名無しゲノムのクローンさん:2005/10/07(金) 22:22:48
>>101
そうそう、統計学の専門家って自分の頭の中で完全に理解していて
素人がいかに統計に疎いか理解できないんだよね
だからどの本を見てもさっぱり理解できない。
小学生にでもわかるように書いてくれなくちゃ


106 :名無しゲノムのクローンさん:2005/10/08(土) 00:57:01
習うより慣れろだな。
実際に統計処理してみるべし、だな

107 :名無しゲノムのクローンさん:2005/10/08(土) 01:00:29
お言葉に甘えて。

       分裂した細胞数     表皮細胞の全数      
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
         4          36
 1回目      6         39
         4          39
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・
         2          65
 2回目     3          81
         1          72
・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・

有名らしい本に載ってる共分散分析についての項。
(数字がずれてて見にくくてスマソ)
表皮細胞の全数が結果に関連しているのかもということを考慮しつつ
1回目と2回目の間で細胞分裂にに関し差があるかどうかを分析したいらしい。
ただ、自分の場合、どうやれば分析できるのか、とかいうことを理解する以前に
なんで一コマに3つの数字が入ってるのかということがわからない。
分析以前・・・恥ずかしすぎ。どこを読んでもわからない・・なぜ3つ?
三匹とか三群とかを見てるということかと思ったけど、それならそう書くはず。

108 :名無しゲノムのクローンさん:2005/10/08(土) 01:27:07
あれ? でもやっぱりこの3匹で平均を出して使えって意味だよね?
でも統計するには最低20匹必要なのでは。
それにその点だけわかったとしても、やっぱ分析がわからない。
ソフトの使い方、読み取り方すら・・
これ幼稚なイラストがついてるような本なのに。情けなさすぎる・・


109 :名無しゲノムのクローンさん:2005/10/08(土) 01:28:45
なんとも言えんけど…単純に各実験で、3つの顕微鏡視野を測定したという解釈では
つじつまが合いませんか?

110 :名無しゲノムのクローンさん:2005/10/08(土) 01:34:06
>>62
自分は生物統計ではこれ読んでます。統計学の基本はわかるようになりました。
「生物統計学入門」石居進(培風舘)
ttp://www.amazon.co.jp/exec/obidos/ASIN/4563037346/qid=1128702802/sr=1-1/ref=sr_1_10_1/250-6665454-8493059

111 :名無しゲノムのクローンさん:2005/10/08(土) 01:44:03
共分散って二つの変数の影響度合いを見るものですよね?
3回繰り返しの実験を2回したから、1項目(実験)に三つずつ数字
があるのでは?見当違いのことを言ってたらごめんなさい。

上でエラーバーの話が出てましたが、みなさんの分野では
1σですか?それとも2σですか?大学(農学部)の時は
1σを使ってる分野でしたが就職した分野(化学分析)では
2σです。あと相対標準偏差もより使うになりました。

農学部だったので生物統計で学んでましたが、最近は医学・臨床統計の
方が分かりやすいテキスト多い気がします。

112 :名無しゲノムのクローンさん:2005/10/08(土) 01:45:34
>でも統計するには最低20匹必要なのでは。

検出力の観点から最低20必要なのですか?

113 :名無しゲノムのクローンさん:2005/10/08(土) 14:03:25
検出力とは何ですか?
最低20の根拠は?

もしよかったら、教えて下さい

114 :名無しゲノムのクローンさん:2005/10/08(土) 14:10:07
恐らく 5,7さんや他の方が詳しいと思いますが・・・
検出力とは 違いがあった時にそれをきちんと違うことがわかる確率なはずです。
正しいのに、正しくないとする第一種の誤りはαで例えば0.05ですが、
正しくないものを正しいとする第二種の誤りβがあって、検出力とは1-βで例えば
0.8だった気がします。ほんで検出力の値もデータ数に依存する部分があったと
記憶しています。嘘だったらすみません。詳しい方フォローお願いします

有意差なかった、だけでは「第二種の考察が不十分」という理由で査読者から
指摘される場合もある、と統計の本に書いてありました

115 :名無しゲノムのクローンさん:2005/10/08(土) 14:49:59
ふむふむ。
確かにこの辺りの内容は、理解しているつもりでも、案外みんな理解できてないよね。
わたしもその一人ですた。詳しい人の説明を聞いてもワカンね

116 :名無しゲノムのクローンさん:2005/10/08(土) 18:37:51
アルファとベータの関係は大事だ

117 :名無しゲノムのクローンさん:2005/10/08(土) 20:31:42
5、7ですが、たくさんのレスありがとうございます。
私も詳しい方の説明を聞いてもいま一つすっきりできない頭でいます。
随分省いた表を載せたので(どこまで省いていいかもわからなかったため)、
せっかく考えてくださった方々に迷惑がかかっていたようです。
表さえそのまま出さなければ著作権大丈夫かもと考え直し、つけたしの情報を
書かせていただきますが、
これはオタマジャクシの成長の話になっています。成長ステージ51〜61というのが表に
なっていたので51を一回目、61を二回目というふうにかえて書きました。
他のステージは省きました。
分裂した細胞数はだんだん少なくなっていき(一部ぶりかえしているときもある)、
表皮細胞の全数は増えていき(こちらはたまには減ってる回もあり)
という感じの変化の表です。
これは「共分散分析を理解する前に」という章なのに理解できない。
前にも書いたようにオタマジャクシを何匹用意したとかの大切な情報が書かれていない
ためイメージもわきません。109さんのご意見が正しいかもと思いはじめています。
わかる方がいたら是非教えてください。


118 :名無しゲノムのクローンさん:2005/10/08(土) 21:50:23
117が長文すみませんでした。
N20以上のことですが、聞きかじりみたいな知識しか頭に残ってないんですが、
「統計的検定とはは平均値どうしを比べるもの」であるため、
1セルのNが多いと有意差がでやすいとかいう話だったと思います。
ほんとに、わかってる人には当然すぎることなんだろうけど、
統計って、言われたらなんかそうなんだろうというくらいしか理解できない
ため、なんでもすぐ忘れてしまいます・・

119 :名無しゲノムのクローンさん:2005/10/08(土) 21:57:22
全くもって意味不明。

120 :名無しゲノムのクローンさん:2005/10/08(土) 22:35:03
参考書に当たらずに質問するのはなしにしましょう。

121 :5,7 っす:2005/10/09(日) 02:33:05
わたしは>>117 ではありません。
かってに名乗るのはやめていただきたい。
>>117 の言う「5,7です」は意味不明。

122 :名無しゲノムのクローンさん:2005/10/09(日) 20:38:34
統計的検定が平均値の比較と思ってる奴はシロート。
平均の比較はt検定

123 :名無しゲノムのクローンさん:2005/10/09(日) 21:41:11
>>122
平均の比較はt検定だけ、とは思ってませんよね?

>>121
「名乗り」と解釈できたのなら、少なくともあなたにとって意味不明ではないはず。

>>117
「意味がとれないもの」を自分なりに要約し、その意味を他人に問うのはいくらなんでも無理でしょう。
適切に要約できるわけがないので。

そんな本、ポイしちゃいましょう。
実験の内容(どのように取られたデータか?)を判りやすく説明できないのは、書き手の問題です。
読み進めても、同じような説明不足に悩まされるだけでしょうし。

124 :名無しゲノムのクローンさん:2005/10/09(日) 22:08:20
必要なら
式の意味を考えず当てはめればいいんだよ
だけど、何に何の式を使うのか それがどういう事を示すのか
それがわからないと、ぜんぜん意味ないけどね 統計
だから、意外な結果もあるんだけど。。。
却下とか 計算の世界は不思議です 見た目じゃなくて

125 :名無しゲノムのクローンさん:2005/10/09(日) 22:39:58
>>107
>なんで一コマに3つの数字が入ってるのかということがわからない。
N=3という意味。
3匹でも3つの顕微鏡視野でも好きなものを想像すれば良い。
あなたが読んでいるのは「分散分析のはなし」
http://www.amazon.co.jp/exec/obidos/ASIN/4489003803/250-7778846-7415433
だと思うのだが、私の周りでは分かりやすいと評判だよ。
この本でだめなら(略)

126 :名無しゲノムのクローンさん:2005/10/09(日) 23:37:03
『少数例のまとめ方』上下巻はお勧め書籍。
もうかなり古いが、理論から応用まで生物系のデータにマッチした内容。

127 :5,7 っす:2005/10/10(月) 13:50:25
>>123
なぜ、5,7 と名乗ったのか意味不明。
そもそも、こんなことでなぜオレが指摘されるのか理解できない。
筋違いもいいところだ。話がそれるからもう辞めよう。

128 :5,7っす:2005/10/11(火) 10:02:21
>>107
確かにおっしゃる通りで。セルの中に3つの数字が入っていてよくわかりませんね。
AとBの集団の数値を比較して、この数値に影響を与えている交絡因子が何なのかを調整するわけですから、
まずは、この実験のデザインを把握し、さらにAとBの集団(この場合は分裂した細胞数と表皮細胞の全数)についても、
よく把握する必要があります。
いきなり、この細胞の表を見せられただけでは理解は難しいと思います。

129 :5,7っす:2005/10/11(火) 10:12:14
>>114
検出力の認識は合ってるかと。ここらへんは頭が働かなくなりますよね。

一応書いときますが、私の検出力(1-β)の認識は、(同じ事を言葉を変えただけになりますが参考になれば)
「正しい対立仮説を正しく採択する確率」と認識しています。つまり、有意差が存在するとしたら、
それを正しく検出する確率を意味します。
βは、正しくない帰無仮説を誤って採択する第2種の過誤になります。
あと、0.8についてなんですが、これは特に決まりみたいなものは無いみたいです。
「α=0.05のとき1-β=0.8、α0.01のとき1-β=0.95」とするのが望ましいですが、これは検出力を設定する
場合の一つの目安になりますが、必ずしもこれに従う必要はありません。

130 ::2005/10/11(火) 14:39:50
なるほどね

131 :名無しゲノムのクローンさん:2005/10/11(火) 21:10:56
統計むずい

132 :名無しゲノムのクローンさん:2005/10/11(火) 22:25:31
遺伝統計の本を探しています。
日本は遺伝統計の歴史が非常に短いし、今のところ1冊しか本を見付けられません

133 :5,7っす:2005/10/12(水) 17:46:19
「ポストゲノム時代の遺伝統計学(羊土社)」
があるけど、値段が高いし、専用のソフトを持ってないと内容についていけない。
この本を持ってますけど、はじめの方だけ読んで棚に並べている。
日本初のゲノム医学と統計を結ぶ入門書らしいが、難易度が高すぎて惨敗。

手始めに「SNP遺伝子多型の戦略(中山書店)」という本を読んでみた。これは読みやすかった。
集団遺伝学について丁寧に書いてある。SNPは専門外だけど、これは面白い一冊。

134 :名無しゲノムのクローンさん:2005/10/13(木) 00:52:45
皆様はどんな統計ソフトを使ってるのでしょうか
エクセルな私はDQN?(統計と言うより表計算ソフトだし、ネットサーフィン
してるとエクセルの関数や分析ツールの間違いを指摘しているページも
よく見つけるし・・・)

>129
ありがとうございます。医薬製薬分野だとβ=4αとおくらしいです。

検出力の公式や、検出力=0.8としたい時、他の条件も打ち込むと
必要なサンプル数が出たりするソフトってありますでしょうか?特に
エクセルなら超嬉しいのですが・・・。ヘルプで検出力、βや第二種
と検索してもヒットしませんでした

135 :名無しゲノムのクローンさん:2005/10/13(木) 07:49:48
Excel で Visual Basic を使えば何でもできる。
Visual Basic を使わなくても、組み込み関数うだけでも、大抵のことはできる。

136 :名無しゲノムのクローンさん:2005/10/13(木) 08:18:28
エクセルもなかなか捨てたもんじゃないよ。

137 :5,7っす:2005/10/13(木) 10:23:08
>>134
私は「SPSS」、「HALBAU」を使ってますね。日本語マニュアルを紛失してしまい、英語マニュアルを読みながら
孤軍奮闘しながら使ってます。
あと、検出力は対立仮説、研究対象の個数、実験デザインで明らかに異なります。従って、第1種の過誤を避ける以上に
第2種の過誤を避けるのは困難になります。検定が程度な検出力のもとで実行される事を保証するには、
十分大きな実験数に基づいた解析であることや、研究&実験が解析のために適切なデザインが選ばれたことを
確実とします。
――――――――――――――――――――――――――――――――――――――――――――
ヤフー検索なら、「検出力」と「非心度」をキーワードに設定してみてはどうでしょうか?
何か、ヒントになるサイトに繋がるかも知れませんよ。

138 :名無しゲノムのクローンさん:2005/10/13(木) 12:45:19
エクセルは単なる表計算ソフトにすがないからな。

139 :名無しゲノムのクローンさん:2005/10/13(木) 13:32:08
私はスタットビューとオリジンを使ってます。
どっちも結構インターフェースが良くできていますよ。

140 :5,7っす:2005/10/13(木) 14:02:15
確かスタットビューを開発したヒューリンクスって潰れたよね。特許とか関係無くなったから、
PC何台にもインストール出来るね。友達が持ってたから、自分のPCに入れようかな。使いやすいらしいし。

141 :139でつ:2005/10/13(木) 14:43:31
確かスタットビューは今は「カレイダグラフ」という名前に変わって売られているはずです。
基本的な統計はほとんど何も考えずにできてしまいます…、それが、いいか悪いかは別として

142 :名無しゲノムのクローンさん:2005/10/13(木) 19:32:47
オリジンってどんなソフト?

143 :rikyo:2005/10/13(木) 20:12:49
教えてください。

3項目あって(コントロール、濃度@、濃度A) 個体数が異なる場合の群間比較にフィッシャーを使ってもいいかどうかなんですが、誰か分かる人教えてください。
SPSSだと計算してくれないらしいのですが、statviewだと計算結果が出るみたいです。
どうしたらいいですかねー。

144 :名無しゲノムのクローンさん:2005/10/13(木) 20:19:33
>>134
R を使いましょう。
フリーウェアです。
日本語の教科書もいっぱい出てます。
膨大なパッケージ(およそ、考えられる全ての解析手法がカバーされる)が存在します。
"CRAN" でググれば説明サイトがひっかかります。

145 :名無しゲノムのクローンさん:2005/10/13(木) 20:30:30
>>143
大丈夫です(特に、個体数うんぬんは全く問題になりません)。
ただ、結果の解釈が困難になることがあります。
3群以上ある場合の Fisher's exact は、本質的に扱いずらいのです(カイ二乗もそうですが)。
Cochran-Armitage 検定はどうでしょう?
検出力も高く、結果も解釈しやすいですよ。

146 :名無しゲノムのクローンさん:2005/10/13(木) 23:44:34
>>142
http://www.originlab.com/index.aspx

統計関係はちょっと弱いがグラフ作成力が抜群。
なのでANOVAやT検定など簡単な統計をしてきれいなグラフを作るのに最適。
込み入った検定はStatviewが吉

147 :名無しゲノムのクローンさん:2005/10/14(金) 06:27:34
グラフが綺麗なソフトはありがたいよね。
スタットビューやSPSSのグラフときたら、、、

148 :名無しゲノムのクローンさん:2005/10/14(金) 06:33:25
シグマスタットはどうよ?

149 :名無しゲノムのクローンさん:2005/10/14(金) 06:39:47
>>141
スタットビューとカレイダグラフは昔からそれぞれ独立していて、統計処理のインターフェイスは
随分違うぞ。個人的にはスタットビューのシンプルさが好きだったが、それは現在のカレイダグラフ
とは全く異なる。

150 :5,7っす:2005/10/14(金) 09:45:56
他の人の論文を読んでると、どのソフトを使ってグラフを作成したのか一目で分かるから面白いですね。
昨日、スタットビュー持ってる友人に、「インストールしていいか?」と尋ねたら、
「SPSS持ってたら十分。むしろ、SPSSインストールさせてくれ。」って言われてしまいました。
さらに、スタットビューのグラフはパワーポイントで編集できないとか。

その後も、少し話しをしたんですが、使いやすいスタットビュー、多機能&便利なSPSSって感じらしい。
でも、ことカイ2乗検定はHALBAUのキーボード入力が一番手っ取り早いけどね。

151 :名無しゲノムのクローンさん:2005/10/14(金) 10:36:23
スタットビューで作ったバーグラフを普通にパワーポイントに貼付けて修飾しているけど
150氏のご友人はもっと高度な修飾をやっているのかな?


152 :5,7っす:2005/10/14(金) 11:37:32
>>151
あれ?そうなの?

>150氏のご友人はもっと高度な修飾をやっているのかな?
ん〜。ちょっとわからんね〜。でも、編集についてはそんなことを言ってたような気がする。
もしかしたら、バージョンによっては出来ないのがあるのかも知れませんし、私の勘違いかも知れません。
自分の目で編集してるところを見たわけでは無いからなんとも言えないっす。

153 :名無しゲノムのクローンさん:2005/10/15(土) 09:41:18
私のバージョンでは、
ppt上で右クリック→グループ化→グループ解除
が、できますな。

かったるいからグラフに手を入れるのは嫌い、つか、したことないけど。
軸に単位を追加するぐらいか。

154 :名無しゲノムのクローンさん:2005/10/15(土) 22:32:01
マンホイットニーがマイブーム

155 :名無しゲノムのクローンさん:2005/10/16(日) 13:02:30
ホイットニー・ヒューストンがマイ・プリビアス・ブーム

「すべてをあなたに」の歌詞の意味知らずに、
披露宴とかでBGMにしてることがある。

156 :名無しゲノムのクローンさん:2005/10/16(日) 13:05:46
でも、ほんと、いい曲なんだよ。

157 :名無しゲノムのクローンさん:2005/10/16(日) 13:14:38
歌詞がな、

「人目をしのんで会うふたり。
あなたには、帰りを待つ家族がいるわ・・・。」

つーて始まる不倫の歌よ。

どうでもいいが、上記日本語の歌詞にすると、
前川清か、ピンカラ兄弟あたりに歌わせたい気分になるから不思議だ。

158 :名無しゲノムのクローンさん:2005/10/16(日) 13:35:03
人目しのんで会うふーたり
あなた妻子がある身でも
これで最後と会うたーびにー、おーもうけどー
あなた以外じゃだめなのよ
すーべてーをあなたあなたにっ、
捧げるーわいつまでも

中之島ブルースの節で歌ってみると、
なかなかよく決まってる

159 :名無しゲノムのクローンさん:2005/10/16(日) 21:35:16
歌手じゃなくてUテストの気ガス

160 :名無しゲノムのクローンさん:2005/10/16(日) 22:17:05
この分野って不人気だけど何気にねらい目?

161 :155:2005/10/16(日) 22:17:25
>>159
それはもちろんそうなんですけどね。
私もよくこれ使うんですが、原稿にp<...., Mann-Whitney U test
と書くたびに、どうしてもあのブラコンの女王様の歌声が響いてくるわけです。

162 :5,7っす:2005/10/17(月) 15:50:12
>>160
不人気。。。。辛い。
確かに、この分野はサンプルさえ集められるならば、論文は書きやすいかも知れません。

163 :名無しゲノムのクローンさん:2005/10/17(月) 20:14:58
うわーん。遺伝統計がまったくわかりません。
遺伝医学の臨床の洋書なんですが、誰か遺伝統計詳しい人いますか?

164 :名無しゲノムのクローンさん:2005/10/19(水) 16:24:56
ロッドスコアとセンチモルガンという言葉が存在することしか知らん。
意味不明じゃ

165 :名無しゲノムのクローンさん:2005/10/20(木) 00:50:13
134です
かなり初歩的な質問かもしれませんが・・・

同じ母集団と思われる試料を用いて3処理区の実験をしました。
差があるかを一元分散分析で調べようと思ったのですが、まず
は各処理区の分散の差が有意で無いことを把握しておく必要が
あるとのことなので、F検定で調べました。AとB BとC AとCで
調べました。どれも有意差はでなかったのですが、その後検定
の本を読むと、このような検定を繰り返すと、正しい帰無仮説が
間違って棄却される確率が 1-0.95^3 となり、この値は0.05で
はない。よってだめ、検定は一つの手法を1回のに使うのが原則
とありました。ただこの本には上記のような場合どうすればよいか
が書いてありませんでした(検定の例は2処理区間ばかりでした)。

このような時はどのような検定方法を用いるのでしょうか。測定値は
正規分布を仮定しています。
エクセルとかで出来ると嬉しいです。

レスありがとうございました。Rも勉強させていただきます・・・。

166 :名無しゲノムのクローンさん:2005/10/20(木) 08:51:32
多群間ならレーベンやバートレットの検定を使いますよ。

167 :名無しゲノムのクローンさん:2005/10/20(木) 14:14:41
ボンフェローニならエクセルすら不要

168 :名無しゲノムのクローンさん:2005/10/20(木) 22:39:24
one-way ANOVA!!
Year!!!!

169 :名無しゲノムのクローンさん:2005/10/20(木) 23:04:19
・・・

170 :5,7っす:2005/10/21(金) 11:14:18
>>165
>どれも有意差はでなかったのですが、その後検定
>の本を読むと、このような検定を繰り返すと、正しい帰無仮説が
>間違って棄却される確率が 1-0.95^3 となり、この値は0.05で
>はない。よってだめ、検定は一つの手法を1回のに使うのが原則
>とありました。

この考えは多群間比較の基本の部分になると思います。「検定の多重性」ですね。
ときによっては、まったく群間の差が無くとも、どこかの群の組み合わせで有意と判定されれば
その検定自体が「有意」となってしまう。40%まで有意と判定される確率が増えることもある。
多群全体の有意水準を5%に抑えたものが多群比較法の基本的な考えです。
「FisherのLSD法」という方法がありますので、ネットか専門書で調べてみてはどうでしょうか?

あと、今回はデータが正規分布していると仮定しているみたいですが、
正規性が疑問な場合は、ノンパラ検定たとえばKruskal-Wallisの順位検定、Wilcoxonの順位和検定などを
利用するのが推奨。

171 :名無しゲノムのクローンさん:2005/10/21(金) 19:24:18
医学統計なら、よくカイ2乗は使うよね。

172 :名無しゲノムのクローンさん:2005/10/22(土) 02:36:43
養殖魚の給餌率表、三行三列の行列式ででっち上げますた。  コンマ二桁までピタリです。 

ふぁじ〜でかおすでかたすとろふぃ〜な なまものの世間で、んなはずはありません。統計学はあやすい?!

 _∧∧__   / ̄ ̄ ̄ ̄
 |( ゚д゚)| <  寝る!
 |\⌒~\  \____
 \ |   |

173 :名無しゲノムのクローンさん:2005/10/22(土) 03:14:51
>>171 おかしな論文を書かないことを祈る。


174 :名無しゲノムのクローンさん:2005/10/22(土) 10:09:57
>>172
マジレスだが、捏造ですか?

175 :名無しゲノムのクローンさん:2005/10/23(日) 09:28:38
数学科の統計学って実務統計というより理論統計学。
相関計数rの決め方なんて、グラフを見て
点の散らばり具合いで瞬時にr=0.5とか判断するらしい
数学科はマジで適当やな

176 :名無しゲノムのクローンさん:2005/10/24(月) 05:49:13
>>174
現場ではね、個人で使う分にはね、とてもべんりなんよ。 

でも、人にはとても・・・。

ヽ(`Д´)ノ  
  .ヽ`Д´)  
  (ヽ`Д).  
  (  ヽ`)  
  (   ヽ  
 ヽ(   )ノ.  うあぁぁぁーー
  .ヽ   )  
  (ヽ  )   
  (Д´ヽ) . 
  (`Д´ヽ  
 ヽ(`Д´)ノ

177 :名無しゲノムのクローンさん:2005/10/24(月) 09:38:53
数学科で統計講座(環境統計)やってるモノです。
確かに、相関係数は見た目で判断するときありますが、これは簡便法の一つであって全てではありません。
相関の有無、正負、相関の強さなどをおおまかに把握するだけ

178 :名無しゲノムのクローンさん:2005/10/24(月) 23:31:32
>>165
F検定の繰り返しで問題ありません(多重性の調整などは不要です)。

検定を繰り返すと、分散が等しい場合に誤って「分散が異なる」と結論する確率は5%を超えます。
でも、この場合、ちょうど5%にならなくても何も問題もないですよね?
(本当は分散分析でもいい場合に)Kruskal-Wallis 検定を選んでしまう確率が5%を超えてはいけない、
などということはありませんから。

実は、この問題においては、有意水準よりも検出力の方が重要です。
K-W 検定を使うべき場合に分散分析を使ってしまうことの方が問題ですから。
ただ、対立仮説をどう置くか、といった問題が難しいので、あまりまともに検討されることはありません。

179 :名無しゲノムのクローンさん:2005/10/26(水) 18:09:51
つーか、相関係数のサンプル数を増やせばr=0.2とかでも
相関関係有りになっちまうところがなんとなく信頼できん。
いかに、バイアスの無いサンプルを選ぶのかが非常に大事になってくるよね。

180 :名無しゲノムのクローンさん:2005/11/01(火) 13:47:18
生物、農学、医学系の統計学で多変量解析やってる人います?
多変量の論文書きたいんですけど。

181 :名無しゲノムのクローンさん:2005/11/01(火) 13:54:32
なんつうか、こういうめんどいことは雑誌のエディターとかレビューアーが計算してくれればいいのに。
「お前の結果だと有為な差とは認められないですよ、もう後2回実験をしなさい」とか。


182 :名無しゲノムのクローンさん:2005/11/01(火) 16:24:03
>>181
データは個人情報。メールで送信したり、他者に閲覧させてはならない。

でも、あなたの気持ちわからないでもないよ。

183 :名無しゲノムのクローンさん:2005/11/04(金) 14:19:29
異分野の雑誌の投稿規程みたら、統計処理に関するルールも
書いてあってビクーリ。医学系ってだいたいこうなのか・・・

184 :名無しゲノムのクローンさん:2005/11/05(土) 02:27:07
>>180
農学分野というか環境分野・農業気象になるけど
都市のメッシュ気候値推定やらリモセンの一部は多変量解析が必須。

185 :名無しゲノムのクローンさん:2005/11/08(火) 09:42:06
>>184
え〜と、なんか詳しそうですが、その手の専門の方ですか?

186 :名無しゲノムのクローンさん:2005/11/09(水) 01:16:23
すみません・・・ 教えていただきたいことが・・・
1 濃度が同じ(もしくは近い)試料を2回測定して、その測定値を X1 、 X2 とします。
2 その差の絶対値を d とします。
3 事前に、その濃度の試料を繰り返し測定して算出した標準偏差をσとします。
ここでdの上側95%限界値は2.8σ(2*2^0.5*σ)になるそうなのですが、なぜで
しょうか(どういう計算をすればよいのでしょうか)。

187 :名無しゲノムのクローンさん:2005/11/09(水) 01:39:50
あの〜教えていただきたいのですが。
単変量解析での比較解析で有意差が出ない(Fisherでもカイ2乗でも、はたまたマンホイットニーのU検定でも)のに、
多変量解析では、なぜか有意差がついている研究があります(95%CI)。

こういうことは、起こりうるものなのでしょうか?
また、そういう研究は正しいのでしょうか?

188 :名無しゲノムのクローンさん:2005/11/11(金) 20:37:45
sage

189 :StatView5:2005/11/12(土) 01:26:07
スタットビューで解析した結果を、いまさらながら利用したのですが、
肝心なソフトを廃棄してしまったようで・・・。
購入しようにも販売中止となっており入手できません。
StatView 5.0日本語版 正規のライセンス製品をお持ちの方いらしたら、
お譲りいただけないでしょうか?<(_ _)>

ヨロシクお願いしたします。





190 :名無しゲノムのクローンさん:2005/11/12(土) 13:59:18
統計やってるとR万歳・perl万歳って感じだな。

191 :5,7っす:2005/11/14(月) 14:23:52
いや〜、最近まで論文を書いてたので、掲示板に来れませんでした。

>>186
母平均に関する検定ですね。
おそらく「95%限界値で2.8σ」というのは、通常の統計処理をするうえで、
95%信頼限界を考えることが多いからだと思います。

d=|μ1-μ2|/σ (μは母平均、dは有意差)←この式は両側

この式で、一般にμ、σは未知の値であることが多いので、過去の文献や経験を応用して見積もっている。
だから、2.8σなんだったらそれは過去の経験上「そういうモノ」としてトラエルしかないと思います。
この統計の部分は、二重盲検法や臨床比較試験など臨床試験(治験)でよく用いるので、その分野の方ならより深く覚えたらいいかと。
ネット検索するなら、「推定制度」、「相対制度」、「有意差」とか。


192 :5,7っす:2005/11/14(月) 14:51:10
>>187
う〜ん。ちょっとわかりませんね。
1個1個の要因ごとに分析する事も大事ですけど、全体として、個々の関連性を把握しながら
相対的に寄与の大きい要因とその組合せを探すという事が多変量の基本的な考えですから。

例えば、外科的な手術が必要かどうか、病名の診断、治療薬の選定などは患者から得た多変量的情報により判断します。
今回、「手術を行うべきな否か」を例に挙げてみる。
「手術をするかどうか」を決めるうえで、種々の検査を受けます。簡単のために、通常(健康)と比較して、有意差があれば手術するとします。
一つのバイオマーカーが有意に高くても、その他のすべてのマーカーは通常値であって手術に踏み切れなかったり、
逆に、一つのマーカーは通常値の範囲内であっても、その他のすべてのマーカーが有意に高く、手術を
しなければ危険な状態かもわかりません。
その他、医師の経験、直感による「重み付け」なども、手術するか否かに影響を与えますし。
よかったら、重回帰、寄与率、判別分析や計量診断あたりを勉強してみてはどうでしょうか?

193 :名無しゲノムのクローンさん:2005/11/14(月) 17:22:50
>>187
一般論として、特に解析方法の誤用などがなくても「起こりえます」。
そういった現象が生じた、という点だけを以てその研究が「正しくない」とは言えません。

ただ、研究の性質(探索的か検証的か)や試験デザインを考慮した上で解析方法を適切に選択していないとだめです。

>(Fisherでもカイ2乗でも、はたまたマンホイットニーのU検定でも)
とありますが、後付けで手当たり次第にいろいろな手法を適用しているようでは、「正しくない」ですね。

194 :名無しゲノムのクローンさん:2005/11/14(月) 22:42:44
>191 レスありがとうございます。95%信頼区間なら 平均±2σ か、
とも思ってたのですが、より普遍性を意識した場合、半分定義か定理
なようなものとして2.8σと覚えておいたほうがよいと言うことでしょうか

三つの言葉についてネット検索してみます

195 :5,7っす:2005/11/15(火) 15:01:21
>>194
>半分定義か定理 なようなものとして2.8σ

↑分野や数値によりけりと思います。
生化学データや有症率、BMI、薬剤の有効率など、扱う「モノ」が変われば、そのツド変わると思うよ。
この場合は2.8、この場合は2.5 みたいな感じか。

>>193
>後付けで手当たり次第にいろいろな手法を適用しているようでは

↑ごもっとも。。。

196 :名無しゲノムのクローンさん:2005/11/15(火) 22:11:46
>>194
2.8って、どこから出てきたんでしょうね。
両側95%なら、1.96シグマです。1.96 こそ、覚えるべきマジックナンバーです。ほぼ2、でもいいですけど。
2.8σ(2*2^0.5*σ)という式は、正直言って怪しいです...

197 :名無しゲノムのクローンさん:2005/11/18(金) 12:03:42
マジックナンバー?

198 :名無しゲノムのクローンさん:2005/11/20(日) 12:45:55
いつもお世話になります。

基本的なことですが,標準偏差SDと標準誤差SEについて教えてください
(>95さんも書かれてますが)。前者は生データの範囲,後者は平均値
のばらつき具合と聞きます。実験を行った得られた測定値からのSD、SE
の出し方、解釈の仕方は以下の感じでよいのでしょうか。

実験と結果
併行数はn=5 1回行った。
得られた測定値 5 8 9 6 5
平均値 6.6
標準偏差(自由度4) 1.82  
5^0.5=2.24
標準誤差(標準偏差/2.24) 0.81

解釈
SD
同じ実験を行うと,併行数は関係なく,得られる測定値は100回中95回(平均値±2SD)は
2.96-10.23の間にあるだろう

SE
併行数n=5でこの実験を100回行い,毎回それぞれ平均値を出すと,95個の平均値は
4.98-8.22の間にあるだろう(平均値±2SE)。

それともSEは例えば,n=5の実験を3回行い,三つの平均値を用いて,標準偏差を出し
それを3^0.5で除するのでしょうか?(この場合だとアンケート調査等でSEを出す
のはかなり苦労する感じもします)

※検出力な導き方の考えは医薬統計学(サイエンティスト社)という本で勉強したら
概要は分かりました。ありがとうございました。

199 :5,7っつす:2005/11/22(火) 16:42:50
>>193
SDの解釈はそれでいいのでは。

↓あと、申し訳ないんですが、この部分のイメージがわきません。アンケートの場合ならば、
 対象となる集団が複数(この場合は3つ)になることになりますよね。
 その平均値を集めてきて標準偏差を求めた、というのは有り得るんでしょーか?

それともSEは例えば,n=5の実験を3回行い,三つの平均値を用いて,標準偏差を出し
それを3^0.5で除するのでしょうか?(この場合だとアンケート調査等でSEを出す
のはかなり苦労する感じもします)



200 :200っす:2005/11/22(火) 18:38:53
200ゲトで名前変えます。

201 :名無しゲノムのクローンさん:2005/11/23(水) 22:48:52
わかりにくい文章ですみません。

それともSEは例えば,n=5の実験を3回行い,三つの平均値を用いて,標準偏差を出し
それを3^0.5で除するのでしょうか?

というのが教えていただきたかったのです。標準誤差も1回の実験で出していいのか
(その際はnは併行数)?それとも複数回の実験でだすのか(この際は各回の平均値
でさらに平均値を出して、実験の回数がn)?

アンケート云々は分かりにくい例でした。すみません


202 :200っす:2005/11/24(木) 17:21:08
>>201
私は立場上、臨床検査技師さんに血液サンプルから生化学データを取ってもらうことが多いわけです。
例えば、平成14年度、平成15年度、平成16年度(3回の検査)に測定したそれぞれのデータは
一つのエクセルファイルに混ぜてしまいます。ただ、身体組成や年齢が明らかに違うようなサンプルを混同しないようにはしておきます。
3つの年度のサンプルを混ぜてから、その後、平均値や標準偏差を算出しますね。
だから、1年度ごとに平均を求めて、その3つの平均をもとに全体(3年分)の標準偏差を求めるというのは普通やらないと思います。

もちろん、先ほども書いたとおり、サンプルの性質上ごちゃごちゃに混ぜて統計解析してはならないモノもあります。
その場合は、別々に基本統計量(平均や偏差など色々)などを計算して、比較したりしますが、その別々の集団の平均値をもとに
全体の標準偏差を求めるというのは、ちょっと聞いたことがないですね。

え〜と、質問の解釈間違ってないですかね?間違ってたり、分かりにくかったらスマソです。

203 :名無しゲノムのクローンさん:2005/11/24(木) 23:27:43
ご解釈まったく間違っていません。ありがとうございます。データが平均値±2SE
で記載されている場合は,この実験を行えば併行数にかかわらず,得られる平均値
は100回中95回はここに含まれるという理解でいいのでしょうか。

臨床検査ということはISO15189にも精通されているのでしょうか


204 :200っす:2005/11/25(金) 10:58:44
>>203
いえいえ。ISOなんてまったく精通してませんよ。
検査技師さんには、データを出してもらうように依頼するだけですよ。

私は検査技師じゃないし。基礎医学屋さんです。
主にメタボリックシンドローム(代謝異常症)の研究やってます。
ちらほら、中性脂肪、コレステロールとか生化学データやBMI,血圧を例に挙げてきたのは、
それを扱う機会が多いというだけですよ。

205 :名無しゲノムのクローンさん:2005/11/26(土) 22:18:23
ありがとうございます。私は分析法や標準物質の
開発です

206 :200っす:2005/11/30(水) 11:49:36
>>205
化学屋さんですか?(物理?)

207 :名無しゲノムのクローンさん:2005/11/30(水) 21:53:47
すいませんが、当方急いでおりまして、どなたか教えていただけるとありがたいです。
1群のN数が100以上の2群でt検定をやっております。P値が相当低くなるの
ですが、pがなになに未満というのではなく、aX10bの形式で正確(aは2桁で十分)
に求まるソフトってありませんかね。ウェブ上でできるサイトとかフリーのソフト
とかあったら申し分ないのですが・・・

208 :名無しゲノムのクローンさん:2005/11/30(水) 23:49:01
Rだよ。

209 :& ◆/p9zsLJK2M :2005/11/30(水) 23:51:58
それに,,p値をそこまで深追いする必要ないんじゃないですか。
統計学的有意なんだから,p値の意味は,帰無仮説からどれくらい外れてるかですよ。


210 :名無しゲノムのクローンさん:2005/12/01(木) 22:07:28
>>208
どうもありがとうございました。おかげで助かりました。
>>209
おっしゃることは重々わかるのですが、世の中にはとりあえず計算せねばならず、
計算した以上、きちんと値を示さねばならない状況があるのです。


211 :名無しゲノムのクローンさん:2005/12/01(木) 22:39:53
とりあえず、出力された統計量放り込めば。
ttp://aoki2.si.gunma-u.ac.jp/CGI-BIN/distribution.html

212 :207:2005/12/02(金) 22:08:27
>>211
210もわたしです。実は208さんのアドバイスをうけ、Rをダウンロードしようかと
検索していたらまさにこのサイトが見つかって、速攻でエクセルで計算の上
統計量を次々と放り込みました。どうもありがとうございました。

213 :200っす:2005/12/06(火) 15:43:02
p値で0.07とかだったらガックリくる。これから書く論文で正に起こった。

214 :名無しゲノムのクローンさん:2005/12/06(火) 22:55:31
retry

215 :名無しゲノムのクローンさん:2005/12/08(木) 17:34:17
連鎖平衡、連鎖不平衡、ハーディ・ワインバーグ平衡がよくわからん。
数値入力するだけで、簡単に判定できるソフト知ってる?できたら無料で落とせるの

216 :名無しゲノムのクローンさん:2005/12/13(火) 18:47:15
ものすっごくお馬鹿な質問で申し訳ないのですが、標準偏差を出す際に測定値が3つ以上ないとダメ、といわれるのはなぜでしょうか?
標準偏差自体は測定値が二つでも出ると思うのですが?

217 :名無しゲノムのクローンさん:2005/12/14(水) 16:37:31
今、多変量解析やってるんですがまったくわかりません。
誰か簡単な解析マニュアル知ってませんか?

218 :名無しゲノムのクローンさん:2005/12/15(木) 00:25:09
話を蒸し返すようですが、 >186  に関して自分なりに考えてみたので、適当な考えかどうか
見ていただけないでしょうか. >191さんに書いて頂いたのとは異なるかもしれませんが。

(前提)
ある分析法において,今から測定する試料の測定結果の併行標準偏差はSrと事前に算出されている.
同一試料を2併行で測定する.よって2つとも目的物質は同濃度と考えられる.
2併行分析の測定値を、測定する順に、X1及びX2とする.

(dと2.8Srについて考える)
X1-X2の分散を考える.分散の公式よりSr^2+Sr^2=2Sr^2 標準偏差で表すと(2^0.5)*Sr
同一試料の併行分析なのでX1-X2の分布の平均値は0と考えられる.
よってX1-X2は平均値0、標準偏差(2^0.5)*Srの正規分布である.X1-X2は100回中95回は
-2*(2^0.5)*Sr≦X1-X2≦2*(2^0.5)*Sr
X1-X2の絶対値|X1-X2|の範囲を考える.0≦|X1-X2|なので正規分布の右半分のみを考える.
50回中2.5回、すなわち100回中5回は |X1-X2|≦2*(2^0.5)*Sr=2*1.4*Sr=2.8Sr (2^0.5=1.4)

X2-X1に関して考えると、同様に、|X2-X1|≦2.8Sr と書ける.よって測定値の差をdとすると
|d|=|X1-X2|=|X2-X1|≦2.8Sr (測定系が異常でなければ、100回中95回起こるはず.)と書ける.

>206 生物(学生)→化学(就職)です。生物系へ配属されると思ってたのですが.
でも勉強になります。トレーサビリティとかCRMとか全然知りませんでした。標準物質
=純度が非常に高い物質やそれを希釈したもの、と思ってました

219 :200っす:2005/12/15(木) 09:51:36
>>217
あまり多変量は詳しくないですけど、

基準変数(Y)が無ければ
 主成分分析、因子分析、多次元尺度法、クラスター分析、数量化V類 など
基準変数(Y)があれば
 量的変数⇒パス解析、相関分析、重回帰分析(数量化T類含)、比例ハザード、指数ワイプ など
 質的変数⇒判別分析(数量化U類含)、多重ロジスティック など

ちなみに、解析前にYがあるのか無いのか解っていないときは因子分析してみる。
Yがあれば下、無ければ上の解析をする。で、結果をまとめるときは、あたかも初めからYがあるのか無いのか
解っていたようにまとめる。きたコレ。

220 :名無しゲノムのクローンさん:2005/12/15(木) 12:02:59
>>218
あってるよ。

221 :名無しゲノムのクローンさん:2005/12/16(金) 00:13:27
>220 ありがとうございます

222 :名無しゲノムのクローンさん:2005/12/17(土) 17:50:48
生化学的な統計ではないのですが、分からないことがあって困っています。

とある2つの遺伝子群の2塩基の頻度を比較してるのですが、
2群間で有意差のある2塩基(CGとか)を特定したいと思ってます。
t検定でいけるかと思ってたんですが、
それぞれの平均に差があるかの検定なので、
2塩基頻度みたいにすでに平均化してある値を利用してもいいのかが分かりません。

他の検定法の方がいいんでしょうか?


223 :名無しゲノムのクローンさん:2005/12/17(土) 18:24:18
専門外なので用語が判りません。2塩基頻度って何ですか?
例えば、CGという配列の出現割合が異なるかどうか、
という話なら、カイ二乗検定でいいのではないかと思いますが。

224 :222:2005/12/17(土) 23:50:50
>>223
お返事ありがとうございます。
出現頻度についてはその通りです。たとえば連続した100個の2塩基中CGが6個あれば、6%といった具合です。
カイ二乗検定についても考えたのですが、恥ずかしながら素人なものでどう数式に当てはめて良いかが分かりません。
具体的にはA集団(データ数12)、B集団(データ数3)、
各CG頻度の平均が5.9%、2.7%
ちなみに各偏差は2。0、0.6です。
要はA>Bであることの有意性を証明するのが目的です。

昔、生化学的なデータについて有意差検定してたときは各データをエクセルのt-testの関数に入れてただけだったので、
統計についてしっかり勉強していなかったのがあだになってしまいました。
なにか助言をいただけるとありがたいです。

225 :223:2005/12/18(日) 00:34:27
>>224
失礼しました。よく考えてみると、この問題は難しいですね。
単純化した仮定の下でも、CG の出現個数はカイ二乗分布には従いませんね。
C だけ、とかなら大丈夫なのですが。
カイ二乗分布でそこそこ近似できるかどうかも怪しいです。

226 :名無しゲノムのクローンさん:2005/12/18(日) 00:53:58
DNAマーカーの実験してて生物統計は全然しらない俺が来ましたよ

CGの頻度というのは正規分布なのでしょうか?
二項分布?
野生型と何らかの処理をした突然変異の比較なのでしょうか?

何のアドバイスにもなっていませんね。すみません。

227 :名無しゲノムのクローンさん:2005/12/18(日) 09:43:09
遺伝子群(nいくつ?)で比較するならノンパラメトリックでしてもいいんじゃないの

228 :222:2005/12/18(日) 17:43:27
>>225-227
たくさんのレスありがとうございます。
残念ながらまだ苦闘しています。

分布については正規分布ではないです。
計測値はA群では3〜8%くらいB群では2〜3%くらいです。
ちなみに同じ野生型の遺伝子群での比較です。

>>227
B群のn数がたったの3です。
これってウィルコクスン検定ができないんですよね・・・?

昨日からいろいろ考えましたが、どうも限界です。
Discussionには有意差については触れずに、
平均の差と偏差だけで、”大きい差がある”とだけ書こうかと思っています。
昨日からの疲れで少し弱気になってますが、
とりあえず今日は休んで明日も考えてみます・・・。

229 :名無しゲノムのクローンさん:2005/12/18(日) 17:59:06
なかなか良いスレですね。私も困っている問題があるので皆さんに質問です。
今集めている多群のデータの比較で、そもそも正規性自体が仮定できません。
そこで、正規性の要求されない KW 検定に持ち込もうと思ったのですが、
群間でそもそも分布の形が違う可能性が出てきたのでそれも躊躇しています。
この場合、平均値の比較はやめて分散のみの比較に持ちむしかないのでしょうか。
例えば、F検定で総当たりの比較や、割合を比較するとか(後者はデータ不足)。

まとめると質問内容は、
1)F検定で有意差が出てきた。この場合の解釈は?
2)分散を比較する場合の多群バージョンは何か?
です。以上よろしくお願いします。

230 :名無しゲノムのクローンさん:2005/12/18(日) 19:29:54
>>228
検出力が問題なだけでn=3でもKW検定できるよ。


231 :名無しゲノムのクローンさん:2005/12/18(日) 21:03:46
>229
分布の異なる群間で分散を比較することの意味は?
よっぽど分布が違うというのでなければSteel-Dwassで比較すればどうだろうか。


232 :229:2005/12/18(日) 22:22:04
確かに、そもそも分布が違うんじゃ分散を比較しても意味ないよねえ。
こういう場合って、これ以上はもう何も結論出せないんだろうか・・・
Steel-Dwass、初耳です。ちょっと勉強してみます。どうもありがとう。

233 :名無しゲノムのクローンさん:2005/12/19(月) 01:32:42
そもそも分布が異なると分かってる2群
を比較して何をのべようとしていらっしゃる
のでしょうか?
帰無仮説は何ですか?

234 :229:2005/12/19(月) 01:58:54
そもそも変数1、他は同じ条件で取ってきたデータセットでしたので、
one-way ANOVA で平均値を比較するつもりでいました。(H0: μ1=μ2=μ3)
しかし、そういった事情(分布自体が異なる可能性)であるので、どうしたらいいものか、と。
F検定で計っているのは分散が異なるかどうか、であって分布の形までは言及してないですよね。
そもそも、はじめから分布自体が違う2群を比較することなんて出来ないですよねぇ・・・。
(今回の場合、3つの中の一つの群は明らかに2つのピークを持つような感じである)
つまり問題は、「分布が違う」ということを統計的に示す方法は何か?ということです。
また、その場合の結論はどう解釈していいのだろうか、と。

t検定では、標本が少数の場合にはほとんど正規性の検定はパスしてしまいますが、
ANOVA の場合も事情は同じなんでしょうか?これが出来ればそれでいくんですが。
ANOVA は分散が違う場合でも頑健性があるので、大丈夫みたいなことは書いてありましたが、
分布の形がそもそも違う場合については何も述べられていませんでした。
ノンパラの方法に関しても、正規性の問題をパスすることができる、程度の理解では不十分で、
厳密には分布が似ているかどうかまで考慮する必要がある(分散は当然等しくなくても良い)。
この辺のことを皆さんはどう理解し、クリアされていますか?

235 :200っす:2005/12/19(月) 09:56:56
>>222
個人的興味からの質問なんですが、(もしよかったらでいいんですが)
DNAマーカーの研究をしてるってことは遺伝子多型解析ですか?
遺伝子型(Genotype)と表現型(Phenotype)がどの程度一致するかを調べてるんですか?

あとこっちは真剣な質問です。
染色体は2対(つまり遺伝子も2対)あります。
50人の集団を見る場合、染色体数は50×2=100本(遺伝子数も100)になります。
今回の例では、この100本の遺伝子の特定の配列がC→Gの点突然変異をしているのかどうかを見ているのでしょうか?
もしくはCGは同一配列上のセットの2塩基なのか、もしくは相補的な配列にGがあるのか、はたまた1対の遺伝子上にCがりもう1対の遺伝子上にGがある
という事なのでしょうか?
出現頻度という言葉ではなく、遺伝子頻度(genotype frequency)やアレル頻度(Allele frequency)という言葉を用いた説明の方がありがたいですがどうでしょう。

236 :200っす:2005/12/19(月) 10:26:23
ごめんなさい。訂正です。
1対=2本 でした。

22対(44本)の常染色体と1対(XX or XY)の性染色体でしたね。

237 :222:2005/12/19(月) 11:57:54
>>235
すみません。私の説明が中途半端でした。
確かにこの書き方だとDNAマーカーの研究にも見えますね。

やってることは(あまり具体的には言えませんが)、
複数の検体から見てるのではなくて、
あくまでマウス1ゲノム内での異なるlocusの遺伝子群を比較しています。
私が、遺伝子B群(遺伝子3つ)がC→T変異のHotspot(進化的に)ではないかと注目していて、
なんとか別の遺伝子群(この場合A群)との有意差を導けないかと考えていました。

説明不足だったことはすみません。

238 :200っす:2005/12/19(月) 12:40:32
>>237
なるほど。確かに研究内容は他言したくないと思うので、まぁその程度で。

ある遺伝子AのC→T点突然変異を調べてるんですね。
その遺伝子とは別の遺伝子座に存在する遺伝子Bと比較してC→T置換の差を見るというのですね。
わかりました。分子遺伝学や細胞遺伝学、遺伝統計にあたるのでしょうか。非常におもしろい分野だと思います。
シークエンスをして遺伝子A&Bの配列を読んで、(ヘテロとホモ接合対があるからベクターに入れてから配列を読んでると思いますが)
遺伝子A、B間の変異率?みたいなのを比較(できれば統計的に有意差も欲しい)する訳ですね。
遺伝子の機能、役割として一時期しか発現しない遺伝子や機能としてそれほど重要ではない遺伝子は進化的に保存されていないと聞きます。
特にY染色体上の遺伝子。互換性の高い理由、DNAのメチル化?、リン酸化?などを調べるとHotspotたる理由が説明できると面白いかも?????

239 :名無しゲノムのクローンさん:2005/12/19(月) 22:25:02
>>234
分布が違うという場合はKolmogorov-Smirnov検定で正規分布やその他の理論分布と比較すればいいです。
分布が異なるということですが、普通正規分布であることを検定する場合でもn>100くらい必要なものですが、
20-30程度でピークが二つできているくらいならノンパラメトリックで十分に思えます。
本当にピークが二つあることが確実なら、それぞれを分離して、検定すればいいと思います。なぜ二つの分布があるかは質的な
問題になりますので、追加実験なり、考察なりする必要があるでしょう。

240 :名無しゲノムのクローンさん:2005/12/20(火) 00:30:20
流れをぶった切りますが、、、
ttp://aoki2.si.gunma-u.ac.jp/lecture/mb-arc/arc006/400.html
エクセルの分析ツールのF検定の不具合が報告されていますが
この分析ツールを用いると、「F境界値 両側」として1つの値が
表示されるのですが、例えば有意水準5%で両側検定を行えば
F(1-α/2)とF(α/2)の二つの境界値が出なければならないの
でしょうか?

統計量が1を超えるように分子と分母を組み合わせて片側検定
を行うのが普通のセオリーとは思いますが。

初歩的な質問ばかりですみません

241 :200っす:2005/12/20(火) 10:25:26
>>234
分布の形を見たとき、山のピークが2つあるならば、それは本来別々であるべき集団を一つとして
考えてることになりますから、 >>239 追加実験なりデータの取り方を変えたりしなくてはならないでしょうね。

>>240
一般的に分散に違いがあるのか無いのかを予測することは難しいです。
だから、F検定はデフォルトで棄却域を両側にしているみたいですよ。
ちなみに、片側検定は、上側か、下側か、どちらか一方しか考慮しないので、比に対しては両側検定よりも
高い精度で検定することができます。
でも片側検定を有意義に用いるには、分析対象のデータの特性を把握すべきであって、実験や調査を始める前に
上側は下側かの棄却域だけで比の解析が可能なのかを確認しておく、という感じでしょうか。

242 :名無しゲノムのクローンさん:2005/12/21(水) 00:30:49
>>240 >>241
さらに話がずれますが、等分散性を調べるのにF検定を使うのは、かなりロバストでないそうです。
正規性が仮定できない場合にも使えるなんとか検定、というのがあったはず(役立たずのレスで失礼)。

243 :名無しゲノムのクローンさん:2005/12/21(水) 02:16:41
”200っす”さん、トリップつけて!
すごくお詳しいので尊敬です。勉強になります。

244 :名無しゲノムのクローンさん:2005/12/21(水) 03:16:05
分散分析が使えるかどうかわからない時、正規分布からのずれが疑われるときや標本数が等しくないとき
は、SAS のGLMprocedureがおすすめ。


245 :名無しゲノムのクローンさん:2005/12/21(水) 11:47:16
>>242
正規性がないのに等分散性を調べるのか?
ノンパラメトリックな散布度はSiegel-Tukey's testでいいと思う。

246 :200っす:2005/12/21(水) 12:24:53
>>243
ありがと〜ございます。
でも、ところどころタイプミスとか、あまり知らないとことか、誤って認識してるとこもあるし。
役に立ってればさいわいです〜。

ちなみに、旧「5,7っす」ですので。あと、トリップはよくわからんです。

247 :222:2005/12/21(水) 14:20:03
2塩基頻度で悩んでた222です。
ある程度結論が出たので、報告します。

ある研究者の方(この手の塩基パターン解析に詳しい方)に相談したところ、
全体的に塩基組成パターンは正規分布に近似できるらしいそうです。

つまり
母集団:データ数大量→正規分布
A群:データ数12→分布不明
B群:データ数3→分布不明
という状況なので、カイ二乗検定による、A群B群の比較は難しいが、
母集団が正規分布なのでT検定でいける、と判断しました。

ただ母集団が本当に正規分布になるかは、
まだ異論がつく可能性も否定はできないので、
(この辺の議論は、私も専門外なので口が出せません)
サプリメンタルにノンパラメトリック検定も行い、
有意差があることを証明できればいいかな、と思っています。

私としての結論は、
T検定で有意差を導く、サプリメンタルにウィルコクスン検定もする。
相談した研究者を共著にのせて、万が一には共犯になってもらう(笑)。

、でした。皆さん、色々ありがとうございました。

248 :名無しゲノムのクローンさん:2005/12/21(水) 23:40:02
いろいろとありがとうございます。
ttp://aoki2.si.gunma-u.ac.jp/lecture/Average/bunsan1.html
で「注:平均値の差の検定の予備検定として行う場合には,有意水準は α=0.25 程度にして検定を行ったほうがよい」
とあったのですが、なぜなのでしょうか。α=0.05はゆるすぎなのでしょうか。

249 :200っす:2005/12/22(木) 10:38:49
>>247
「全体の集団で正規分布に近似する」とはいっても、全ゲノム中における1塩基変異多型はそうかもしれないけど、
すべての研究においても正規分布に近似するというのは危険な香りがします。
1塩基の変異は、代々同じ比率で伝わると言えます。これがHardy-Weinberg equilibriumの考えですが、
ときに、特定の領域(特定の遺伝子)のみクローズアップして考えた場合、連鎖不平衡している可能性が十分に考えられまする。

正規分布 −(yes)→ 等分散 −(yes)→ t検定
 |            ↓no
 (no)→ Wilcoxon(Mann-Whiteney U)

>>248
なんか、その例題が悪いですね。血色素量(ヘマトクリット?)を男女間で比較するのは非常識ですから。
男性と女性で違うのは当たり前。もしろ男性集団を特定の条件で分割して差を見るのが本来のかたちかと。
まぁ、例題に文句言っても仕方ないですね。

F検定を等分散かどうかの予備検定に用いるとき有意水準は20〜25%にしてますよね。これは5%(差の検定)に比べてかなり甘いです。
あと、この20〜25%というのは「SASによる実験データの解析」東大出版 という本でも載ってますのでよかったら読んでみては?

追加ですが、正規性の検定 、F検定 、t検定と度重なる検定を行う事になるかもしれませんが、これは多重性の問題もありませんので心配なく。

250 :名無しゲノムのクローンさん:2005/12/22(木) 21:45:58
>>249
集団の頻度を見ているわけではなく、個体内での塩基組成なんだから、
CHW principleと関係ないでしょ。マウスも近交系のを使っているのでは
ないだろうか。

251 :248:2005/12/26(月) 00:48:01
すいません。リンク先の説明です。F検定についてです。
>249
ありがとうございます。

http://www.amazon.co.jp/exec/obidos/ASIN/4000068490/qid%3D1135525605/503-8557071-9066342
生物配列の統計 こんな本が合ったんですね。生物をしていましたが、バイオインフォマティクスとかは
ぜんぜんわかりません

252 :名無しゲノムのクローンさん:2005/12/26(月) 00:50:50
連続書きこすみません。
>F検定を等分散かどうかの予備検定に用いるとき有意水準は20〜25%にしてますよね。これは5%(差の検定)に比べてかなり甘いです。

この時のF検定で有意水準を5%にした場合は、5%の差の検定と比べて、かなりかなりゆるいということでしょうか。

253 :200っす:2005/12/26(月) 09:46:20
>>252
いやいや。
ただ単純に25%(Ftest)と5%(差のtest)を比較しただけなので、深い意味はないです…
25%以下になるのに比べて5%以下になるのが難しいって漢字

254 :名無しゲノムのクローンさん:2005/12/30(金) 12:32:25
年末あげ

255 :統計ちょっと玄人:2006/01/02(月) 22:49:19
200ぐらいから254ぐらいまでのレスを読んだんだけど
ちょっと統計に関しての考え方が危ない人が多い気がします。
特にフローチャート的に検定する種類を選ぶのはあまり良いとはいえません。
統計学は基本的に計画を事前にたてたうえで得られたデータに関して
結論を導く学問であります。

また正規性や等分散性について気になっている方が多くいますが、
平均値での比較が目的なのであれば、理論的には気にしなくていい部分です。
等分散性、正規性が気になるような状況は、
@検出力低下
A統計モデルによる予測をおこなうような場合
です。(他にもあります)

もう少し勉強をした上で話し合わないと間違った理解を招くと思います。

えらそうですみません。。。

256 :名無しゲノムのクローンさん:2006/01/02(月) 23:45:18
>>255
>また正規性や等分散性について気になっている方が多くいますが、
>平均値での比較が目的なのであれば、理論的には気にしなくていい部分です。

これは、暴論では。ひょっとして、ノンパラメトリック検定が前提なのですか?
それならそう書かないと、誤解されると思いますが。
当たり前ですが、正規性・等分散性がないとき、t検定統計量は「理論的に」t分布に従いません。

>等分散性、正規性が気になるような状況は、
>1.検出力低下
>2.統計モデルによる予測をおこなうような場合
>です。(他にもあります)

何よりも問題なのは、有意水準が確保できないことでしょう。

257 :統計ちょっと玄人:2006/01/03(火) 14:46:21
>>256
>これは、暴論では。ひょっとして、ノンパラメトリック検定が前提なのですか?
>それならそう書かないと、誤解されると思いますが。
>当たり前ですが、正規性・等分散性がないとき、t検定統計量は「理論的に」t分布に従いません。

まず1標本の問題として等分散性については無視しましょう。
正規性に関していえばT検定はある母集団からサンプリングされた集団(標本集団)の
平均値について統計学的にどうであるか議論する検定で
平均値に関しては中心極限定理により理論的に正規分布に従うことが容易に
わかります。標準誤差からしっかり勉強しなおすことをお勧めします。


>何よりも問題なのは、有意水準が確保できないことでしょう。
これについては論外です。
有意水準が確保できないようなケースはおなじ結論を導こうとしている問題
にたいして何度も検定を繰り返すようなときです。
多重性の問題以外では基本的に問題となりません。
問題となるのは本当は差があるにもかかわらずその差を発見できない
第2種の過誤です。(検出力低下)



258 :名無しゲノムのクローンさん:2006/01/03(火) 20:21:18
>>257
>平均値に関しては中心極限定理により理論的に正規分布に従うことが容易に
>わかります。

わざと触れていないようですが、平均値が漸近的に正規分布に従うだけでは不十分です。
問題は、検定統計量がt分布に従うかどうか、です(もちろん、一般に従いません)。
実際、分布の尖度によってはt検定の実質有意水準が名目有意水準から(少し)ずれます。

実用上、t検定は正規分布からのずれに対して validity robustness を持つ、ということなら同意です。
ただ、これは、容易に示せるような問題ではないと思います。

>有意水準が確保できないようなケースはおなじ結論を導こうとしている問題
>にたいして何度も検定を繰り返すようなときです。
>多重性の問題以外では基本的に問題となりません。

等分散性が成り立っていないのにそれを仮定して(Welch ではない)2標本t検定をすると、
「実用上問題となる程度に」実質有意水準と名目有意水準が乖離すると思います。

あと、おっしゃる通り、efficiency robustness に関してはt検定はいまいちなので、

>平均値での比較が目的なのであれば、理論的には気にしなくていい部分です。

とはやはり言えないと思います。仮定が怪しいなら、素直に Wilcoxon 検定等を使えばいいのです。
「平均値の検定」とは言えなくなってしまいますけれど。

259 :統計ちょっと玄人:2006/01/03(火) 22:31:55
>>258

>実際、分布の尖度によってはt検定の
>実質有意水準が名目有意水準から(少し)ずれます。
まず分布の尖度ではなく、「分布の形状」の方が言い回しが正しいですよね。
また、分布の形状にかかわらず、帰無仮説上では有意水準は一定です。
問題となるのは検出力です。有意水準がずれてしまっては結論に一貫性がなくなります。
有意水準がずれるというのは対立仮説上での話であって、非心t分布でhの話でしょ?

>とはやはり言えないと思います。仮定が怪しいなら、素直に Wilcoxon 検定等を使えばいいのです。
「平均値の検定」とは言えなくなってしまいますけれど。

これに関しては同意です。
ただし、モデル上での話ができなくなるため、検証的な仮説で用いることを
おすすめします。

名目と実質有意水準についてもう少し詳しくレス待ってます。



260 :統計ちょっと玄人:2006/01/03(火) 22:46:45
あ、補足。
離散型のデータの場合は、有意水準がずれるのは同意です。
t検定を行う以上、連続型である上での話をしています。

261 :名無しゲノムのクローンさん:2006/01/03(火) 23:11:17
>>259
>まず分布の尖度ではなく、「分布の形状」の方が言い回しが正しいですよね。
かなり詳しい方ですね。その通りです。
で、帰無仮説上でも「実用上はほとんど問題が無いぐらい」ですが、ズレるのです。

竹内啓の「数理統計学」の第19章「正規分布の仮定の意味」をご覧下さい。
正規性が崩れている場合(例として、尖度がゼロでない場合)に
有意水準がほとんどズレない(けれども、少しはズレる)ことが記載されています。

第一感としては、「ズレてもおかしくない」と考えるのが自然だと思うのですが、
竹内大先生は(統計量の分布を漸近展開し、三次・四次キュムラントまで含めて計算することにより)
ズレの程度まで評価(!)しています。
もちろん、「ほとんどズレない」ということを示すために、ですが。

262 :統計ちょっと玄人:2006/01/04(水) 00:05:48
そちらの方が詳しそうですが・・

>帰無仮説上でも「実用上はほとんど問題が無いぐらい」ですが
離散型でずれるのと同様連続型もずれるのは分かります。
ただしそれは0.0000001のようなかなり問題とならないレベルでずれるので
あってよほどの事でない限り結論をゆがめません。
で議論を最初に戻すと、帰無仮説上では理論的にt分布に従うと考えて
かまわないはずですが??

ちなみに私もまだまだ勉強中の身ですから、100点満点の自信を持って
ません。
なのでよろしければもっと具体的にt分布に従わない理由をお教えいただきたい。


263 :?名無しゲノムのクローンさん:2006/01/04(水) 00:56:24
あのですね、数理統計的にはこのお二方の議論は正しいんでしょうけどね、サンプルの
数が10以下で、しかも実験を繰り返すのに半年かかるような実験系では、分布を
仮定してもほとんど意味なさないんじゃないんですかね。


264 :名無しゲノムのクローンさん:2006/01/04(水) 01:33:18
生物やってる人は抽象的思考が極端に
下手ですな

265 :名無しゲノムのクローンさん:2006/01/04(水) 02:37:31
>>263 ??逆に分布を仮定しない(できない)と困る場合が多いのでは?

266 :?名無しゲノムのクローンさん:2006/01/04(水) 05:16:44
対象の分布を仮定できない、正規性の仮定もまず無理。たしかに困るんです。
ノンパラしか役に立たない。Snedgar-Cochranは名著ですけどああいう実験系は
組めないことがほとんど。だいたい、誤差がどこから生じるのかを分かるまでに
数週間から数ヶ月を費やして、やっと誰がやっても再現性がある実験系が組めるんです。
だから統計に時間を費やすのは生物系(遺伝、疫学を別とすれば)あまり意味がない。

267 :名無しゲノムのクローンさん :2006/01/04(水) 06:39:20
もう少し言わせてもらえば、サンプル数が等しいこと、等分散、正規性、2集団の違いが
加法的であることの制約がついたt検定を使えるような実験系があると思うことが、実際実験
していない学者の妄想なんです。だから数理統計の本は役にたたない。


268 :名無しゲノムのクローンさん:2006/01/04(水) 08:56:36
>>262
「数理統計学」によると、名目有意水準を 0.05 として検定すると、
実質有意水準は尖度が -1 のときほぼ 0.053、尖度が 1 ならほぼ 0.048 になるそうです。
「正規性が無いと、検定統計量は理論的にt分布に従わなくなる。
ただし、有意水準に関してはよほど病的な分布で無い限り、ほとんど影響はない。」
が結論だと思います。
尖度の項を含めてt検定統計量の式を計算すると、尖度の項は残る、ということです。

>>267
>サンプル数が等しいこと、等分散、正規性、2集団の違いが
>加法的であることの制約がついたt検定を使えるような実験系があると思うことが、実際実験
>していない学者の妄想なんです。

そういった実験系が「実際にある」かどうかは、「数理」統計学者の関心事ではないし。
理論を勉強するためにそういった本を読んでいる実務統計解析家は、判ってますよ。

269 :?名無しゲノムのクローンさん:2006/01/04(水) 10:33:02
>>267
だからー。実務統計解析でも理論統計学者でもいいんですけど、もう少し現実的に役にたつ
話をして欲しいんですよ。ここは生物板なんですから。
理論を勉強したって実際に使い物にならなかったら話にならないでしょ。統計は数学のなかでも応用学
として発達してきたわけでしょう。実際にどういうのが役に立つのか、教えてほしんですよ。
わたしはそういう立場で統計を学んできたんですけどね.


あと、生物系で問題になるのは、統計的な有意差と生物学的な有意差の問題ですね。いくら統計的に有意
でも、差が小さくて効果が無視できるものもある。例えばreporter gene assayですけど、30%の違い
で統計的な有意差があってもその30%がbiologicalな違いを表していないのなら、差がないと結論しなければ
意味がない。




270 :名無しゲノムのクローンさん:2006/01/04(水) 14:55:55
まず統計的有意性が実証されなけば
その先の議論は成り立たない。
ただ、それだけの話であって、生物に限った
話でなくて統計の絡んだ話は全部そう。
たしかに、生物やってるのは事務的に
統計やろうとするから分かってないのは
多い。



271 :名無しゲノムのクローンさん:2006/01/04(水) 20:41:34
>>269
>もう少し現実的に役にたつ話をして欲しいんですよ。

t検定がどこまでロバストか、という話は、生物学研究者の何割かには役立つと思っているのですが。
実際、t検定を使った論文はいっぱい出てますよね?ちょっと話題が理論に走りすぎたのは、ご容赦。

>あと、生物系で問題になるのは、統計的な有意差と生物学的な有意差の問題ですね。いくら統計的に有意
>でも、差が小さくて効果が無視できるものもある。

医学統計ではp値をみて有意だった・有意でなかったと結論するだけではなく、信頼区間を算出して、
その端点が医学的(生物学的)に意味があるかどうかを考察する、というのが推奨されています。
ノンパラメトリック信頼区間なんてのもありますよ。

>例えばreporter gene assayですけど、30%の違い
>で統計的な有意差があってもその30%がbiologicalな違いを表していないのなら、差がないと結論しなければ
>意味がない。

素直に「統計的な有意差は見られたが、生物学的に意味のあるものではなかった」と考察すればいいのでは。
「差がない」と断言できるかどうかは別ですが。

>>270
有意差が出なくても、データが語ることと、それに基づいて行うべき統計解析はいくらでもあると思いますよ。
追試験をやるべきかどうかの判断、追試験の必要例数の算出、誤差要因の分析、・・・
論文として表に出ないだけで。

272 :名無しゲノムのクローンさん:2006/01/04(水) 21:52:20
共分散分析とか「reporter geneが30%〜」
という目的で使用するのに適当なんだけど
あまりこの業界では見ないですね。


273 :名無しゲノムのクローンさん:2006/01/04(水) 22:17:33
>>272
君から使い始めたらどうかね

274 :名無しゲノムのクローンさん:2006/01/05(木) 01:03:47
だって生物やってる人は数学嫌いな上に
保守的だから食いつかないでしょ。
金にならない努力は無駄。



275 :名無しゲノムのクローンさん:2006/01/05(木) 04:13:29
多変量解析は生物学出身なのだが・・・

276 :名無しゲノムのクローンさん:2006/01/05(木) 13:04:11
>>255
>統計学は基本的に計画を事前にたてたうえで得られたデータに関して
>結論を導く学問であります。

↑いや、確かにあんたの言う通りだ。
 でも、得られたデータが決して自分の思ったとおりになるとは限らないわけで、
 そういった場合はネガティブデータとして発表したり、よほど強い証拠があるなら最初の発見として報告できるよね。
 あと統計の本みたいなデータは、実験系の用語でいう「チャンピオンデータ」みたいなもの。
 実際に実験、検査、アンケートを実施した結果ではありえないんだよね。

277 :名無しゲノムのクローンさん:2006/01/05(木) 13:08:55
なにがチャンピオンデータだよ。
死ね。

278 :名無しゲノムのクローンさん:2006/01/05(木) 14:57:14
>>277
うわぁ…

279 :名無しゲノムのクローンさん:2006/01/05(木) 19:18:29
チャンピオンデータという言葉は相手がサイエンス
分かってないと見下したときに使う言葉。
「ふーん、そんな便利な言葉があるんだ。
今度使おう。」なんて思ってるお子様は
統計なんて手出す必要ないから、
死ぬまで似非科学に精出してろ。

280 :同定不能:2006/01/05(木) 19:29:34
いろいろ図鑑

http://www.h2.dion.ne.jp/~ice/

http://members.at.infoseek.co.jp/big_game/

http://kasugak.sakura.ne.jp/

281 :名無しゲノムのクローンさん:2006/01/05(木) 23:08:11
>>279
結局君は何が言いたいの?

282 :名無しゲノムのクローンさん:2006/01/06(金) 00:49:29
>>279
私は統計解析の専門家だけど、チャンピオンデータっていう言葉、
生物系の研究者はよく自嘲的に使ってるし、使う意味もあると思うけど。
典型的な仮定の下では、極値分布に従うんだよね。

283 :名無しゲノムのクローンさん:2006/01/06(金) 09:54:06
>チャンピオンデータという言葉は相手がサイエンス
>分かってないと見下したときに使う言葉。

↑お前、何にもわかってない

284 :名無しゲノムのクローンさん:2006/01/06(金) 11:40:38
チャンピオンデータ=
捏造の始まり

都合の悪いデータを恣意的に排除
するのは捏造。
排除すべき正当な理由があるなら
チャンピオンデータとは呼ばない。


285 :名無しゲノムのクローンさん:2006/01/06(金) 12:29:02
>>284
お前の思考回路は安物だな。

チャンピオンデータは、余りにも完璧すぎだから、逆に「ホントにこんなにも上手くいくのかな?」
ってかんぐられるだろ?
数理統計の教科書の例題なんかで使用されてるデータなんかがそうだと言ってるんだよね。
だから、実際にかき集めたデータでは数理統計の本みたいに上手くいかないって事。んな事もわからんとは

言葉の説明してオナニーしてんなっつの

286 :名無しゲノムのクローンさん:2006/01/15(日) 09:02:57
投稿するFig作る時だけ統計すればいいと
思ってるなら間違いだ。
実験系をシェイプする過程で自分の主観を
排除する目的で統計処理してみるという使い方
もする。
常々統計処理してないで主観によるチャンピオン
ばっか追いかけてたら、いつかは痛い目を見る。
そうなった時はオシマイ。
ここまで説明して意味分からなかったら、
素人の学生か救いようのないバカだな。


287 :名無しゲノムのクローンさん:2006/01/15(日) 09:08:27
あと実験計画法も少しは勉強してくれよ。
実験科学やるつもりならさぁ。


288 :名無しゲノムのクローンさん:2006/01/15(日) 10:13:56
自分が間違った判断をするかもしれない
という恐怖感は人によって違うんですね。


289 :名無しゲノムのクローンさん:2006/01/15(日) 10:32:16
Hello World動かしただけでマスターした
気になってるやつが一番はた迷惑。


290 :名無しゲノムのクローンさん:2006/01/15(日) 13:37:03
きもいww

291 :名無しゲノムのクローンさん:2006/01/15(日) 15:28:35
チャンピオンデータとかリアルでいってるやつ
マジでウザイ

292 :名無しゲノムのクローンさん:2006/01/15(日) 19:20:47
実験計画法なんざ後付けだし。
統計処理して、ペーパー書くときに
「このデータは○○という理由で集めました」
「先行研究は○○なので、この集団ではどうか」

とか。所詮そんなもん。
実験計画法がきっちり出来ていて、実績挙げてるゲノム研究では、億単位の金が動いてるし。
簡単に出来ると思うなよ。

293 :名無しゲノムのクローンさん:2006/01/15(日) 19:57:18
実験計画法の意味もしらないチャンピオン厨が
なんで態度でけぇんだよ?

294 :名無しゲノムのクローンさん:2006/01/15(日) 20:31:39
実験計画法が後付けって
斬新すぎて意味がわからねぇよ。

ボクはなんちゃいでちゅか?
ボクは日本語はわかりまちゅか?


295 :名無しゲノムのクローンさん:2006/01/15(日) 21:56:16
生物学なんて昔から貴族の遊び。
統計処理できるほど必死に実験なんて
やってられないよ。


296 :名無しゲノムのクローンさん:2006/01/15(日) 21:58:11
↑貴族なのか?

297 :名無しゲノムのクローンさん:2006/01/15(日) 21:59:02
>>295
昔は、だろ

298 :名無しゲノムのクローンさん:2006/01/15(日) 22:36:26
生物学どころか、全ての科学はもともと貴族の道楽なわけで。
科学技術として実用に強力に還元することができることが判ってからは、
道楽ではなくなったが。

299 :名無しゲノムのクローンさん:2006/01/15(日) 22:40:12
無制約LSDやダンカンは使っちゃだめだと言われますが以下のような
理由でいいのでしょうか

・3処理区した→2処理区間の平均値の比較の総当り→3回検定する
・検定は1回あたり有意水準5%
・少なくとも1回は、何らかの処理区間で有意差ありといわれる確率が
 1-0.95^3=0.14>0.05
・全体として有意水準が5%より上がってしまうので駄目。4処理区なら
 6回の検定となり 1-0.95^6=0.26 有意水準のコントロールが出来ていない

またダンカンのほうが有意差が出にくいと教科書で読んだのですが
これはLSD、ダンカンのそれぞれの統計量及び境界値の出し方に
よるものと考えてよいのでしょうか。またFigで数字にaやbと上付きで
あった場合はダンカンと思ってよいのでしょうか。医学分野ではもう
ダンカンは使わないと思いますが。


300 :名無しゲノムのクローンさん:2006/01/16(月) 23:06:37
>>293
それが生物学の常識だからだよ
さっさと専門に帰るといいよ

301 :名無しゲノムのクローンさん:2006/01/18(水) 22:20:38
>299

u1=u2=u3のとき、部分帰無仮説u1=u2, u2=u3, u3=u1に対して、
3回検定するから。
制約付きの場合は、u1=u2=u3が否定されるからu1=u2といった帰無仮説のみで
1回の検定で済むので0.05を維持する。u1,u2,u3が相異なるときは帰無仮説が存
在しないので問題がない。

ダンカンは
仮説の数pにおける有意水準配分ap=1-(1-a)^(p-1)だから
p=3のとき
a<a3=1-(1-a)^2=a(2-a)

じゃなかろうか。

302 :名無しゲノムのクローンさん:2006/01/21(土) 13:48:42
ありがとうございます 勉強します

303 :200っす:2006/01/25(水) 11:24:34
ひさしぶりに戻ってきますた。
少し忙しかったもので…。また、ちょくちょくカキコしますのでよろしく

304 :名無しゲノムのクローンさん:2006/01/25(水) 13:33:07
>>303
そういう変な名前とか挨拶とか必要ないよ。
誰も知らないから、気にせず名無しで書き込んじゃいなよ。

305 :名無しゲノムのクローンさん:2006/01/28(土) 13:35:28
>303
待ってました!
いろいろまた教えて下さい!

306 :名無しゲノムのクローンさん:2006/01/31(火) 22:33:24
初心者です。とりあえず基本から勉強していたのですが
確率分布などの理屈はある程度わかっても根本的な問題として母集団がよくわかってません自分。
例えば動物の実験でコントロール・A群・B群……とあったとき
それらは異なる母集団と考えればいいのですか?

ここで実験系として、各群の各個体一匹から複数のサンプルが同時に取れるとして
一つの群の中に、また個体それぞれとしての母集団があって……みたいなところで頭がショートします。
どう扱えばというか、どう考えるべきなのでしょうか。

307 :名無しゲノムのクローンさん:2006/02/01(水) 08:03:53
>>306
母集団とは、推測(検定とか推定とか)の「対象」となる集団のことです。
推測に「使う」集団のことをサンプルといいます。
サンプルは、母集団からサンプリングされて作られます。

コントロール・A群・B群は、サンプルであって、母集団ではないはずです。
また、各個体から(細胞か何か)をいくつかとるとしても、
各個体は母集団ではないはずです。サンプルからサンプルがとられているだけ。

308 :名無しゲノムのクローンさん:2006/02/01(水) 12:08:09
>>298
知ったかすんな阿呆。
理学と工学の発祥は別。
それぞれ相互的に作用はすれど、本質的には別物。

309 :名無しゲノムのクローンさん:2006/02/02(木) 02:32:20
>>307
ありがとうございます。
最初に母集団は一つと考えるわけですもんね。
サンプルはあくまでサンプルでその母集団を推測する材料ということですね。

サンプルからとったサンプルが複数あるとして、コントロール・A群・B群で比較するにはどういった方法がよいのでしょうか。
各群にサンプルが何匹かあって、更にそのサンプルの一匹から複数サンプル(例えば細胞)をとって
それぞれ所定の方法で定量するといった感じなんですが。
たぶんパラメトリック検定になると思うのですが。

310 :名無しゲノムのクローンさん:2006/02/02(木) 08:40:41
>>309
個々の細胞の測定値=全平均+処理の効果+個体差+細胞差
という分散分析モデルでいいと思います。

細胞差が誤差と区別できないので、細胞差を誤差とみなしてしまえばいい。
で、個体差は変量効果。

311 :200っす:2006/02/02(木) 17:04:17
今のところ………なんも無し

312 :名無しゲノムのクローンさん:2006/02/14(火) 16:39:26
GLMモデルってわかる人いますか?

313 :200っす:2006/02/15(水) 11:48:49
お〜。久しぶりの書き込み発見。

GLMモデルは詳しくないな〜。
色々なバイアスを修正しつつ、説明変数から目的変数を予測する回帰分析じゃなかったっけか?
女性集団の肥満疫学調査(遺伝要因の影響度の調査)してる外国人留学生に勧めたことがあったな。
環境要因として、こどもの数、経済力、病歴、閉経前か後といったものがあって、

知りたいことは遺伝要因と肥満の関連性であって、上記の環境要因が違ってくると、それがバイアスになってくる。
こういったバイアスを調整しつつ遺伝要因から肥満度を予測する回帰式(と寄与率、p値)を構築するというものと思う。

余り自信がないので、自分の論文や研究発表では絶対に使わない。
reviwerにGLMモデルの理論的なところを聞かれたら答えられないから…

314 :名無しゲノムのクローンさん:2006/02/17(金) 09:35:27
質問です。

多重項ロジスティック回帰分析なんですが、
右辺の説明変数(X1,X2,…,Xn)が3つのカテゴリーだった場合、
たとえば、1日にたばこの本数が、「0本」「1〜10本」「11本から20本」と3つのカテゴリーとします。
で、このカテゴリーデータから、とある集団100人のうち肺がんか健常者かを推測する回帰式を作るとします。

ここで、問題なのが、たばこの本数。Aさんは「0本」であれば「1〜10本」もしくは「11〜20本」である可能性はなくなります。
つまりたばこの本数は、それぞれ依存性があります。

実際、SPSSを用いてステップワイズ、強制投入でぶち込んだところ
Y=5x1+4x2  (5と4は係数。x1がたばこ1〜10本。x2がたばこ11〜20本)
オッズ比も出てきます。これって正しいんでしょうか?

315 :200っす:2006/02/17(金) 17:45:54
>>314
少し質問がわかりにくかったですが、おそらくオッズ比に関しては正しいと思います。
オッズ比は、「たばこ0本」よりも何倍肺がんに罹患しやすいのか、を意味しますが95%信頼区間が1をまたいでいると
平均的な効果が発生し、ある事例では肺がんリスクを増大させるが、別の事例では肺がんリスクを減少させるようになります。

次に回帰式ですが、
一つのカテゴリー変数(>>314の例であればたばこの本数)から、2つの変数が発生していますが(x1とx2)、
特に問題ありません。
タバコや酒といったリスクファクターを扱った一般的な疫学研究では、カテゴリーが3つ以上の変数を用いてロジット分析は多々見かけます。
で、今回の例は、たばこの本数「0本」をゼロ、「1〜10本」をx1、「11〜20本」をx2とみなしていると思います。
回帰式の係数を見ると、5>4となるので肺がんの有病率に与える影響度はX2の方が大きく、オッズ比の大きさとして反映されます。
あと、説明パーセント(寄与率)も確認しておくこと。
「寄与率が60%」であれば、たばこの本数だけで肺がん有病率の約60%の説明ができると解釈します。
しかし、「寄与率が30%」と低ければ、のこりの70%はたばこ以外のファクターで決まることになり、たばこは肺がんの決定的な因子には成り得ないと判断します。

追加ですが、ステップワイズ法と強制投入法はまったく別の手法ですので、同時に利用はできないと思いますよ(確か)。長文スマソ

316 :200っす:2006/02/17(金) 17:49:50
大失敗。

>今回の例は、たばこの本数「0本」を基準にして、「1〜10本」をx1、「11〜20本」をx2とみなしていると思います。
>回帰式の係数を見ると、5>4となるので肺がんの有病率に与える影響度はX1の方が大きく、オッズ比の大きさとして反映されます。

Y=5x1+4x2
x1は「たばこの本数が1〜10本」
x2は「たばこの本数が11〜20本」

ど〜やら、この回帰式を信じると、たばこの本数が増えると肺がんのリスクが下がるようですw

317 :名無しゲノムのクローンさん:2006/02/21(火) 23:55:24
以前、t検定の前に分散の同等性確認を行うことに関して質問したものです。
同じようなことで教えてください。

一元分散分析を行う際は、同様の目的としてコクラン検定(α=0.05)を行う
と習いました。有意さが出た場合はその値をはずして、再度行い、最終的に
残った値で分散分析を行うとのことでした。tやF検定は連続して総当り的に
行うことはダメと分かったのですが、コクラン検定は延々と連続して行っても
よいのでしょうか

318 :名無しゲノムのクローンさん:2006/02/22(水) 17:18:13
>>315
何人くらいのstudyで、オッズ比は信頼できるものになるの?

300人くらいの疫学調査では、あるリスクファクターを有する集団は、それを有しない集団に比べて
8倍以上も病気に罹患する結果になってしまった。信頼区間もテラヒロス。
8倍なんてありえないよ。リジェクト確定

319 :名無しゲノムのクローンさん:2006/02/22(水) 17:38:45
>>317
外れ値をいくつも除外すること自体あぶない
等分散性検定で違いそうならWelchの分散分析を使う
分散が均質でなければならないという理論的背景があるなら
データがそもそも怪しいのではないか?

>>318
オッズ比の信頼性というか単純に信頼区間の問題なら
300人という全体の標本数より、リスク有り病気有りというグループが
極端に少ないからだろう

320 :200っす:2006/02/23(木) 10:36:29
>>318
一般的には、オッズ比出すならサンプル数として最低でも1000人は必要と言われてますよ。

8という巨大なオッズ比も1〜2くらいで落ち着くのでは?
信頼区間が1をまたいでいるかどうかも合わせて確認しておこう。

321 :318:2006/02/24(金) 16:45:05
>>320
トンです。
あと、素人質問で悪いんですが、
カテゴリーの数が多いのと少ないのとではどっちの寄与率が高くなるんですか?
集団の切り方なんですが、この切り方次第で寄与率が変わるのだったら、最も寄与率が高くなる切り方を選ぼうかと思いまして。

322 :318:2006/02/24(金) 16:46:26
>>319
トンです。
subject(人を対象)がなかなか集まらないもので…。

323 :200っす:2006/03/15(水) 09:46:19
>>321
カテゴリーはもちろん2つの方が一番寄与率は高くなりますよ。
3つ→4つと増えていくにつれ、寄与率は一般的には下がっていくと考えられてますね。

324 :名無しゲノムのクローンさん:2006/03/23(木) 01:25:49
正規分布の信頼区間(信頼限界?)について教えてください。

t分布で95%信頼区間の場合(Aを標本平均,SEを標準誤差とします)
A-t(n-1,0.95)*SE <μ < A+t(n-1,0.95)*SE
nが大きかったり,母分散が既知ならばt(n-1,0.95)*SE=1.96*SE
になる一方,nが小さいほどt(n-1,0.95)*SE>1.96SEの程度が大きく
なると思います。

正規分布の場合も同様(Sを標準偏差とします),nが大きかったり
母分散が既知ならば A-1.96S<X<A+1.96S だがnが小さいなら
その場合の95%信頼区間は上の範囲より広くなるのでしょうか。




325 :名無しゲノムのクローンさん:2006/03/23(木) 15:37:30
t分布と正規分布の違いは自由度の問題だからね。

326 :名無しゲノムのクローンさん:2006/03/27(月) 14:23:24
ジユード?

327 :名無しゲノムのクローンさん:2006/03/29(水) 10:36:30
オイオイ

328 :名無しゲノムのクローンさん:2006/03/30(木) 14:16:39
>>326
ちょっと面白かったw

329 :名無しゲノムのクローンさん:2006/04/12(水) 21:13:07
age

330 :名無しゲノムのクローンさん:2006/04/13(木) 16:35:55
捕手

331 :名無しゲノムのクローンさん:2006/04/14(金) 18:09:29
理学部生物学科の大学生です。
統計なんてほとんどわかりませんが、宿題で統計学を使いました。

で、宿題を発表会形式でプレゼンしました。
AとBを比較して、有意差が出たので意気揚々と
「○○検定を行ったところ有意差が見られました。よって、AとBは違う!!」
と言ったところ、教授から「統計学的に有意差が出ても生物学的にはその差は意味はない」と言われてしまいました。

ハァ?意味わかんね。何が悪かったんでしょうか?

332 :名無しゲノムのクローンさん:2006/04/14(金) 18:24:09
>>331
比較に用いたもの(形質)が悪かったんじゃない?
そうじゃなければ検定方法が悪かったんじゃない?
そうじゃなければ教授の機嫌が悪かったんじゃない?

333 :名無しゲノムのクローンさん:2006/04/14(金) 20:14:50
>>331
言葉通り、生物学的な意味がない(ぐらいの僅かな)違いしかなかったのでは?
統計学的に有意な差が必ずしも「科学的に意味のある差」を意味しないから。

334 :名無しゲノムのクローンさん:2006/04/17(月) 00:02:10
>333 さんともかぶるかもしれないけど、統計的に差は出たけど
許容できる差だったのでは。教授もなんで意味がないかは説明
しないとだめとは思うけど。精度がいい実験ならnを増やせば、有意な
平均値の差は出せる気がします

335 :名無しゲノムのクローンさん:2006/04/17(月) 00:09:15
A      B
180.1180.3
180.2180.4
180.2180.4
180.5180.4
180.2180.5
180.3180.3
180.3180.4

ある処理をして身長を調べました。P=0.037<α=0.05 です
といっても、この処理(平均:Bの方が高い)は身長を伸ばす
のに効果的です!といってもうーんという気がするという感じ
なのでは
平均 A 180.3 B 180.4 


336 :名無しゲノムのクローンさん:2006/04/17(月) 00:09:55
すいません。データは4桁です。

337 :200っす:2006/04/18(火) 09:25:44
それならば、生物学的に意味ある差を評価する検定があるよ。
通称「デルタ検定」。

例えばなんですが(医学系の研究をしているので疫学的な例を出しますが)、
集団Aと集団Bの体重を比較するとします。
集団Aの平均体重が50kg、集団Bの平均体重が51kgだったとします。

この場合、サンプル数を1000人以上に増やしていくと、おそらくなんですが
有意差は出てきます。
ただ、たとえ有意差が出たとしても「この1kgの差には意味があるの?」ってゆー話しなんですよ。
n(サンプル数)を調整するとこによって、有意差が出たり、出なかったり。
また、仮に有意差が出たとしても、それが正常な範囲内であればあまり意味がない事だってありますよね。
私の挙げた例では、「たった1kg重かったというだけで、将来肥満になるわけでもねーだろ」って訳です。

この場合は、主張の仕方を変えると良いと思います。
例えば、健常者集団で正常高値の集団は将来的に肥満や糖尿病になりやすいというコホート研究がある、とか
実際に先行研究を挙げて主張すれば、根拠に基づいて「有意差の医学的な意味」を言うことだって出来ます。


毎度毎度、長文になってしまいますが、一言で言えば、 >>333 の言う通りでしょうね。
デルタ検定(剏汳閨jを勉強してみてください。あと、交絡因子とか。

338 :名無しゲノムのクローンさん:2006/04/18(火) 21:46:21
デルタ検定なるものがあったんですね。ありがとうございます。
ttp://www.google.co.jp/search?hl=ja&q=%E3%83%87%E3%83%AB%E3%82%BF%E6%A4%9C%E5%AE%9A&lr=
はがー

>私の挙げた例では、「たった1kg重かったというだけで、将来肥満になるわけでもねーだろ」って訳です。

Bの方がほにゃららの原因で将来肥満になると思われる。AとBを比較し有意さが
でればBの方が将来肥満になると言えるだろう、ということでしょうか。あほですいません。

339 :200っす:2006/04/19(水) 09:55:00
>>338
ちょっと待ってください。いい文章が思いつきませんです、ハイ。

あと、デルタ検定って検索しても、全然統計と関係ないのばかりヒットしますね。
「△検定」←この書き方で検索すると、数件ヒットしましたが、内容はほとんど触れられてないですね。

340 :200っす:2006/04/20(木) 23:46:10
最近、春でポカポカで。
頭が働きません。春眠暁を覚えずです。

341 :名無しゲノムのクローンさん:2006/04/21(金) 00:02:47
細胞に何か刺激した時に、
もともと1の活性が10にまで上がると仮定しよう。

その時、とある遺伝子Xをノックダウンしたら、
刺激したときの活性が9.5まで上がったとしよう。
もち実験を繰り返して、
この平均10と9.5との間には優位差もあるとする。

で、この結果に対して

「とある遺伝子Xは刺激応答性に重要な因子で、
 本来10上がるべきところが、
 9.5しか上がらない事が、
 統計的にも有意差を持って確認できました」

と報告されたら、オレならその教授と同じレスをすると思う。

そういう微妙な差の中に真実が含まれてる場合もあるだろうがな。



342 :名無しゲノムのクローンさん:2006/04/21(金) 06:09:45
対数とって検定すりゃいいんじゃないの

343 :名無しゲノムのクローンさん:2006/04/24(月) 23:04:33
分散分析やt検定を勉強しているのですが
「プールされた分散」とはどういう意味なのでしょうか?
不偏分散とは違うのでしょうか

344 :200っす:2006/04/25(火) 11:04:17
分散分析の意味は、従属変数の可変性が、検討中の効果によってどれだけ説明できるかを計算する事により、モデルの効果の有意性を検討するものです。
この際、数学的に分散に近いとされる、不偏分散を用います。
不偏分散(平均平方)は、偏差平方和を効果の自由度で割ったものです。
不偏分散を残差の不偏分散で割り、その比を問題の効果の重要性を検定するために使うF値になります。
以下、F値にの確率(p値)は、その効果が従属変数にどれだけ影響を及ぼすかを示し、p値が小さければ有意となりますね。

プールした分散(合併分散)は、一元配置分散分析表での群内分散のことです。
これを,各水準(群)のnで割ってルートをとった S.E. は,各水準の母平均の区間推定に使うことができます。

345 :200っす:2006/04/25(火) 11:20:52
日本語ボロボロ。あと、プール分散の説明、短くてスマソ。

訂正

不偏分散を残差の不偏分散で割り、その比を問題の効果の重要性を検定するために使うF値とします。
以下、F値の確率(p値)は、その効果が従属変数にどれだけ影響を及ぼすかを示し、p値が小さければ有意となりますね。

346 :名無しゲノムのクローンさん:2006/04/25(火) 20:07:38
二つの群があって、それぞれの分散が「等しい」と仮定する場合、分散の推定値は一つしかない。
これがプールした分散。
等しいとは限らない、と考えると二つの分散を(プールせずに)それぞれ推定することになる。
それだけの話。

347 :名無しゲノムのクローンさん:2006/05/03(水) 14:51:04
regression modelって、連続変数でないものにも使えるんでしょうか?
例えば6段階の病気のグレードと血圧の関係とか。

348 :名無しゲノムのクローンさん:2006/05/03(水) 16:49:20
>>347
順序ロジスティック

349 :200っす:2006/05/12(金) 16:43:43
ロジスティック回帰分析(非線形モデル)ですな。しかも6段階ときたら多重ロジットか。
ただ、病気は6段階のカテゴリーデータに対して、血圧は量的データであるので、数量化でも良いか。

SPSSは質的データと量的データを混在してても処理してくれるが、
質と量を混ぜてレグレッションするというのは余り聞いた事がありませんね。

350 :名無しゲノムのクローンさん:2006/05/26(金) 12:36:17
ほしゅあげ

351 :名無しゲノムのクローンさん:2006/06/04(日) 09:06:12
微生物系の研究室に配属され、教授や先輩方が統計について全く無知なため仕方なく最近自分で統計学を勉強し始めたのですが、
「生物学を学ぶ人のための統計のはなし―きみにも出せる有意差」
ではt検定はもはやスタンダードではないと書かれているし
「Rによる統計解析の基礎」(無料pdfあります)
では多重比較について、TukeyのHSDやBonferroniの方法よりもBonferroniの方法の改良型でかなり広い用途をもち、
ノンパラメ トリックな分析にも適応可能なホルム (Holm) の方法が推奨されています。
(holmの方法はRではデフォルトで、kaleida graphで使用可、prismでは不可かな?)

今でも正規分布をしないようなデータにt検定は普通に使われているし、holmの方法はかなり強力だと思うのですが、やや新しい方法なのかあまり使われていませんよね?
これらの記述は本当に信用してよいものか悩んでおります。詳しい方、何かご存知のことがあればアドバイスをお願いします。

352 :名無しゲノムのクローンさん:2006/06/04(日) 10:57:57
「生物学を学ぶ人のための統計のはなし―きみにも出せる有意差」
ってタイトルはマズくないか?WWW

353 :名無しゲノムのクローンさん:2006/06/04(日) 11:12:41
「いつでも出せる有意差」

354 :名無しゲノムのクローンさん:2006/06/04(日) 11:32:15
>>352
そのつっこみについては文章始まって2P目で
「いつでも有為差が出る検定なんてものはこの世に存在しない」
なんて文章があるので大丈夫じゃないかと。
この本は会話形式で書かれているんですよね。
統計に関する知識がほとんどない浦井君というキャラが、
自分が考えていたような
「SEでエラーバーをつけるとSDに比べて短くなってかっこいいんですよ」
とかアホな発言をしてくれるのでなかなか楽しいです。
もちろんそれに対する突っ込みありです。

355 :名無しゲノムのクローンさん:2006/06/04(日) 11:37:36
「出せる」ってのを「算出することができる」という意味で使ってるんだろうけど、
どんなデータからでも「捏ね出せる」とも読めるところが日本語としてマズいのでは。

356 :名無しゲノムのクローンさん:2006/06/04(日) 11:39:16
あ、それと付録に「君にもできるごまかし」が載ってます。
タイトルの意味をそのまま取るとこっちがメインかもw

357 :名無しゲノムのクローンさん:2006/06/04(日) 13:54:47
>>351
別に微生物の実験で使うならt検定でも十分
業界誌で使用されている方法に従えば
構わない。
統計的有意差に気を遣うのもいいが、
生物学的有意差を頭に置く方がいいよ。

358 :名無しゲノムのクローンさん:2006/06/04(日) 19:40:23
>>351
わかりやすくていい本だよね

359 :名無しゲノムのクローンさん:2006/06/04(日) 20:31:22
自分のデータの統計解析方法が分かりません。
どの方法を使うかまでは分かってけども、実際のデータをどうやって解析したらいいかが分からない・・・


360 :名無しゲノムのクローンさん:2006/06/04(日) 20:59:18
使う方法わかるなら表計算ソフトで計算すれば?


361 :名無しゲノムのクローンさん:2006/06/04(日) 23:35:02
Rにしとけば?
後々無駄な努力がいらなくなるょ

362 :名無しゲノムのクローンさん:2006/06/13(火) 18:52:54
歴史的に見ると、統計に対する要求は厳しくなってるね。
なんでもt検定で通る時代はいずれ終わりだね。
統計に強い研究者と共同研究か、自分で勉強するしかないね。

363 :名無しゲノムのクローンさん:2006/06/19(月) 21:53:40
統計学の授業サパーリ分かんね。単位取れるんだろうか…

364 :ひろりん:2006/06/22(木) 18:18:40
ロジスティック回帰分析を使って栄養状態が予後に影響するか、オッズ比を出したのですが、血液検査の複数の結果と、
体重などの身体的な結果に相関があり、同じシートで分析すると有意な値を得られません。この場合、血液検査の値、
体重や身長などの身体的な値と、別のシートで分析してもよいものでしょうか?それともやはり同じシートでとり、
相関のある値を一つに絞るべきでしょうか。悩んでおります。どなたか分かられる方、いらっしゃいましたら、
よろしくお願いします。

365 :名無しゲノムのクローンさん:2006/06/22(木) 18:22:29
個別の変数について単変量解析をまとめた後、
多変量解析(ステップワイズとか)でさらに変数を
まとめておけばいいよ。
変数間の相関から因果関係の考察とかも。

366 :名無しゲノムのクローンさん:2006/06/30(金) 23:53:29
主成分分析で従属変数を減らして、第一主成分(これで足りなければ第二、第三と続く)に対して回帰、っていうのはダメなのか?

367 :名無しゲノムのクローンさん:2006/07/01(土) 14:09:35
主成分が容易に解釈できるならいいけど、個別のリスクについて
考えにくいと思う。

368 :名無しゲノムのクローンさん:2006/07/12(水) 00:37:57
ttp://aoki2.si.gunma-u.ac.jp/R/
を拝見しているのですが、教えて君で済みませんが
・F検定の検出力
・ウェルチの分散分析及びその検出力
の関数ってRにはあるのでしょうか

369 :200:2006/07/23(日) 00:36:37
久しぶりに覗きました。残っていて感激。

今後とも、この生物統計のスレが残るといいですな。

370 :light:2006/07/26(水) 05:37:24
簡単なことなのかもしれませんが、統計方法がわからなくて困っています。

ある細胞レセプターの効果を検討するため、マウスの遺伝子操作をして
そのレセプターの発現を無くしました。
そして、5ヶ月後と7ヶ月後にマウスの状態を確認しました。
5ヶ月後、7ヶ月後ともに対照群と遺伝子操作した群間で差が見られました。
7ヶ月後では5ヶ月後よりも、その違いが大きくなっているようです。
5ヶ月後よりも7ヶ月後の方が、対照群と遺伝子操作した群での差が大きくなっていることを
統計学的に調べたいのですが、どのようにしたらいいでしょうか。
それぞれ、8匹のマウスを使っています。状態を確認する時にマウスは屠殺していますので、
5ヶ月と、7ヶ月では異なるマウスを用いてdataを出しています。
そのため、同一個体での経時的変化を調べることはできません。

どなたか教えて下さい。


371 :名無しゲノムのクローンさん:2006/07/26(水) 21:23:36
共分散分析で説明変数に遺伝子操作の有無と時間(5 or 7)を入れて
解析して、時間のパラメータも有意になればいいんではないか?

372 :名無しゲノムのクローンさん:2006/07/27(木) 03:51:37
エンドウの子葉色を使ったメンデルの遺伝実験で、F2の豆を16コ取り出したときの優性形質の豆の数の確率分布、平均値・分散を求めよ。
また4800粒のときの平均値・分散・標準偏差も求めよ

だれかやり方と答えを教えてください!

373 :名無しゲノムのクローンさん:2006/07/27(木) 11:59:04
なんだ?夏休みの宿題か?

374 :名無しゲノムのクローンさん:2006/07/28(金) 01:47:39
メンデルはフィッシャーが???と言ってたなあ。

375 :名無しゲノムのクローンさん:2006/07/31(月) 02:47:48
3群の比較(1要因、対応なし)について教えてください。

Stat View 5.0Jを使用しているのですが、
多重比較でFisherのPLSDやScheffeではp値が表示されるのですが
Games-Howellでは有意差を示す"s"は表示されますが
p値が表示されません。
これはStat Viewの仕様なのでしょうか
それともGames-Howellとはそもそもそういう検定なのでしょうか?
そうであれば各2群間の差をFigureで図示するにはどうすればよいのでしょうか?
Kruskal-Wallisの結果もどう示してよいのかわかりません。
Scheffeではぎりぎり有意差がでないので(Fisherだとでますがノンパラでしたいので)
別の方法でと思ったもので。
統計はソフトにまかせっきりで基本的なことがわかっていないのですが
どなたか教えてください。

376 :名無しゲノムのクローンさん:2006/07/31(月) 06:45:34
statviewはバージョンアップが中止された古いソフトですよ。。。

377 :377:2006/07/31(月) 10:10:20
>376
それは十分承知しているのですが
そこでソフトを変えれば解決する問題なのかどうかを含めて
教えていただきたいのです。

378 :375:2006/07/31(月) 10:11:24
↑ 何度もすいません 375です

379 :名無しゲノムのクローンさん:2006/07/31(月) 16:33:26
一人で何度も書き込みすいません。
SPSSでやってみたらGames-Howellでもp value 表示されました。
おさわがせしました。

380 :名無しゲノムのクローンさん:2006/08/03(木) 02:24:50
一人相撲乙です

381 :名無しゲノムのクローンさん:2006/08/18(金) 07:31:51
偉そうな統計家

382 :名無しゲノムのクローンさん:2006/09/02(土) 21:20:13
二元配置分散分析って、交互作用があるかどうかの判定するための
P値っていくらにしてます?0.05?0.2?有意さなければプーリングして
再度分散分析でしょうか?結構めんどくさい・・・

383 :名無しゲノムのクローンさん:2006/09/18(月) 22:57:21
医者に数学の知識は必要ですか?
http://society3.2ch.net/test/read.cgi/hosp/1158505452/

384 :200っす:2006/09/21(木) 11:53:56
>>383
臨床屋は統計屋をバカにしてる感じやな。

「統計やってて人の命救えるんか!!数字をこちょこちょいじくってハイ答えが出ましたなんてってふざけとる」って言われて、
俺がぶち切れて乱闘になりかけたな>最近の某学会にて
そいつは後で謝罪してきたが。

おっと失礼。
でも、医者さんだって、遺伝統計学に関しては高く評価してるし、統計が必要かどうかは人それぞれだよ。

385 :名無しゲノムのクローンさん:2006/09/21(木) 14:00:34
何愚痴ってるんだ?

386 :名無しゲノムのクローンさん:2006/10/18(水) 01:50:30
>385
謝ってるから許してあげて

387 :名無しゲノムのクローンさん:2006/10/18(水) 11:37:06
簡単に生存曲線つくれるソフトないですか?
デルタグラフでもだめかな?

388 :名無しゲノムのクローンさん:2006/10/19(木) 23:33:44
生物統計とは直接関係ないですが、エクセルの分析ツールのt検定で
「仮説平均との差異」とあるのですが、これは何なのでしょう?ヘルプ
で出てきませんでした。いつもは空欄にしています

389 :名無しゲノムのクローンさん:2006/10/20(金) 21:31:19
>384
遺伝統計学はいわないで

390 :名無しゲノムのクローンさん:2006/11/16(木) 21:56:45
良い統計ソフト欲しいんだけど、JMPどう?
主にANOVA、カイ2乗、F検定、生存曲線とかに使うんだけど


391 :名無しゲノムのクローンさん:2006/12/02(土) 19:46:17
SASを使いたいんだけど、これって個人では使えないのかな?
調べてみたんだが、科学技術計算システムに登録が必要っぽい
登録方法わからないし、困った・・・

392 :名無しゲノムのクローンさん:2006/12/02(土) 23:11:28
>>391
登録うんぬんは知らないけど、ライセンス料が馬鹿高くて、個人で使うのは現実的でない。
会社or大学のをコピーし、ライセンスキーも勝手に拝借して使ってる人はいるだろうが、こっそり使うしかない。

393 :名無しゲノムのクローンさん:2006/12/03(日) 00:44:40
>>392
なるほど・・・
無料で使えるかもと期待してたんだが無理か・・・

SASの代わりに、SASと同じ(似た)ようなシステムを使う方法ってないかな?
SASの練習したいんだ

394 :名無しゲノムのクローンさん:2006/12/04(月) 00:05:40
CUIというのが難点かもしれないが、Rつかえば?FreeWareだし。
大概の事が出来るみたいだよ。SASの練習になるかどうかは知らないが。
http://www.R-project.org


395 :名無しゲノムのクローンさん:2006/12/05(火) 00:47:01
>>394
Rは聞いたことあったけど、SAS使えたらSASがいいかと思ってSASの使い方探してたんだ
R使ってみます、ありがとう

396 :エビアン:2006/12/07(木) 14:11:24
はじめまして。第二種過誤を直接計算できる無料ソフトさがしています。 PowerStats てのがあるってとある本にかいてあったけど、紹介してあったURLがすでになかったです。昔のマック用のDAstatの後継ソフトだと思うのですが。

397 :名無しゲノムのクローンさん:2006/12/09(土) 01:47:41
生物統計を用いる職業ってどんなのがあるかな?
製薬会社とかはわかるんだけど、食品会社とかでも使う?

398 :名無しゲノムのクローンさん:2006/12/09(土) 02:41:51
Mac用の統計ソフト
安い順に2-3教えて下さい

399 :名無しゲノムのクローンさん:2006/12/10(日) 17:34:02
>>397
特定保健用食品扱っている会社なら使うかもね

400 :名無しゲノムのクローンさん:2006/12/12(火) 12:04:02
とあるホルモン濃度の推移を見ています。
多重比較して、どことどこに有意差があるのかはわかっていますが、
測定ポイントが多くて、上手く肩文字がつけられません。

みなさんどうやってつけているんですか?
肩文字を付けてくれるソフトがあったりしませんか・・・?

401 :名無しゲノムのクローンさん:2006/12/12(火) 12:15:48
JMPの最新版は付けてくれたような気がする。

129 KB
■ このスレッドは過去ログ倉庫に格納されています

★スマホ版★ 掲示板に戻る 全部 前100 次100 最新50

read.cgi ver 05.04.00 2017/10/04 Walang Kapalit ★
FOX ★ DSO(Dynamic Shared Object)