【続】[2型糖尿病]は存在しない[5] 先生のいない教室

Data-Driven Cluster分析とは

この記事で 荒っぽく説明しましたように;

Data-Driven Cluster分析とは, すべてのData同志の相互距離の合計が最小になるようにグループ分けした結果です.『結果』という言葉に注目してください.

このグループ分け(クラスター分析)には,『このデータとあのデータは,医学的に考えて よく似た病態だから,同じグループに..』などという,人間の判断基準はいっさい関与させていないことが特徴です. このことは,人間の予断や偏見が入り込む余地がないので客観的であると云えるのですが,反面それが正しいかどうか,何の保証もありません.

関西の方なら覚えておられるでしょうか? 昔(1980年代) 関西テレビで,白蛇を使って占いをする 泉アツノさんという方が大人気でした.占いの結果を告げるときには必ず『こんなん 出ましたけど・・・』が決め文句でした.『私が言ってるんじゃないんです.白蛇がそう言うてるんです』という意味でしょう.Data-Driven Cluster分析とは,これに近いです.

学校や塾の教室に例えれば,先生のいない時に 生徒同士がワイワイやって,最後に生徒全員が納得する『組み分け』を決めたようなもです.

教室であれば,最後に先生が現れて,『それでいいです/それは間違ってます』という判定を下してくれるのですが,Data-Driven Cluster分析には それがありません. これが『教師のいない教室』と呼ばれる理由です.得られた『結果』の正誤を判定する方法がないのです.

したがって,この連載の2本目の記事 にこう書いたように:

この複製検証は,Data-Driven Cluster分析には必須です.

あるデータベースにData-Driven Cluster分析を適用して,グループ(クラスター)分けが完了しても,それで終わりではなくて,それと同じ方法をまったく別のデータベースに適用してみることが『複製(Replication)検証』です.これをやって,最初と同じ結果が出たならば,そこで初めて『このCluster分けには普遍性がある』という確信が持てるわけです.

複製検証:え,このデータはないの?

このWagner論文でも,当然 複製は行っております. ドイツの糖尿病予備軍データベース(TUEF/TULIP)とはまったく異なる,ロンドンの中央官庁に勤務する公務員の健康データを蓄積した White Hall IIを用いています.

ただし,本来であれば,複製検証は,異なる複数のデータベースに対して,全く同じデータ構成(パラメータの種類と数)を用いて行わねばなりません.そうでないと,『複製』の意味がないからです.

しかし,この点では Wagner論文の著者は非常に苦労したと思います. 糖尿病と確定診断された患者のデータなら 世の中に多数ありますが,まだ糖尿病と診断されてもいない人の,糖尿病に関する詳細な検査データを 長期間・大量に追跡したデータなどほとんどありません. 日本で言えば,人間ドックがそれにあたりますが,人間ドックですら,受診者の全員のDNA解析を行うことはないでしょう.しかも同じ人を長年にわたって追跡してもいません.

そこで,このWagner論文では,複製検証にあたっては,オリジナルのドイツのデータベースと同じパラメータではなく,概念的にはそれと同等である(conceptually similar variables)と思われるパラメータに置き換えています.

よって,厳密な意味では,このCluster分析は 正確に複製検証されたものではありません.とはいえ,これ以上を望むのも不可能でしょうが.

果たしてこの複製検証で,同じ結果は得られたのでしょうか?

[6]に続く

コメント

  1. highbloodglucose より:

    シリーズを楽しませていただいてます。

    [2型糖尿病]は存在しない[3]の記事でWagner分類で用いられた指標が記載されていましたが、その中に皮下脂肪組織や内臓脂肪量、肝脂肪量が入っていたので、ここまでデータが揃っているデータベースは少なそうだなぁと思っていました。なので、TUEF/TULIP以外に使える大規模データベースなんてあるんだろうか?と思ったら、やっぱり同じ指標が使えるものは見つからなかったんですね。

    WhiteHallでは、肝脂肪の代わりに空腹時インスリンが入っていますね。でも、これはINS分泌不全と重なるような気がするのですが、どうなんでしょう? 肝脂肪に置き換えるなら、肝機能(AST、ALT、γGT)あたりが妥当な気がします。

    それにしても、中性脂肪とHDLは分析指標に用いても、LDLは用いないんですね。
    その理由は論文中に記載されているのでしょうか?
    糖尿病リスクとLDL-cは無関係だが、低HDL-cは相関あり、というのは常識なんでしたっけ…?

    Wagner分類の6つのクラスターの中で、クラスター4に注目してしまいます。肥満だけれど、インスリン感受性は良好だなんて。この集団は年齢が低いということはないのでしょうか。つまり、もう何年かするとクラスター5に移行していく可能性があるとか?
    そうではなく、また、脂質代謝や血圧にも異常がないのであれば、「健康な肥満」の人たちということになりますね。

    • しらねのぞるば より:

      > WhiteHallでは、肝脂肪の代わりに空腹時インスリンが入っていますね。
      > でも、これはINS分泌不全と重なるような気がするのですが、

      私も 一瞬そう感じたのですが,論文のSupplementを見ると,INS分泌不全は TUEF/TULIP, WhitehHall 共に OGTTのMATSUDA Indexで(ただし ポイント数は異なる)を指標としています. それに対して 空腹時INSは,BMI・ウエスト径・TGと併せて 肝脂肪の代替指標に採用しています. 空腹時INSが高い=インスリン抵抗性がある=内臓脂肪が多い ということなのでしょう. 同様に皮下脂肪量に対応するものとして,BMI・ヒップ径を採用しています. この辺は かなり苦労の跡が見られますね.

      >中性脂肪とHDLは分析指標に用いても、LDLは用いないんですね。
      >その理由は論文中に記載されているのでしょうか?

      LDLは TUEF/TULIPにはあるのですが,WhiteHallにはなかったようです. WhiteHallの開始が1980年代ですから,当時はTCとHDLだけでしょうね. 計算値なら出せますが.本文,Supplement どちらもLDLには言及していません.

      > Wagner分類の6つのクラスターの中で、クラスター4に注目

      いわゆる『Healthy Fats』ですね.Cluster4は 皮下脂肪が多く,内臓脂肪が少ないのでこうなったのだと思います.

      >もう何年かするとクラスター5に移行していく可能性

      各Clusterで糖尿病を発症した人が,Ahlqvist分類のどれに落ち着くのか,Zaharia論文と同様に,Sankey図で示していましたので,記事にまとめているところです.
      いやはや,ドイツ人は 鬼のように手抜かりがないですね.