分位数によるカテゴリ化の是非

そもそも連続量が正規分布していない場合に分位数で区切ってカテゴリ化することの是非はどうなのかも書いておく。

2012年に出たBennette C, Vickers A: "Against quantiles: categorization of continuous variables in epidemiologic research, and its discontents", BMC Med Res Methodol, 12: 21はデメリットを強く訴えていて、著者の一人は2020年にも、本人のアカウントかどうか知らないがGreenland大先生への@tweetとして分位数を巡るカテゴリ化は昔から論争の的であったと書いていて、それについているコメントで知ったこのスライドなど見ると、怖くて連続量のカテゴリ化などできなくなりそうではある。もっと新しいものをみても、Busch EL (2021) Cut points and contexts. Cancer, 127: 4348-4355.というコメンタリーは、連続量をカテゴリ化する方法は一長一短で、どれか1つのカテゴリ化が正しいというようなものは存在しないと論じている。

一方、このSASのブログ記事は、(解決策の一案として分割するカテゴリ数を減らすことを提案しているだけで、根本的な問題解決にはなっていないが)まさに丸めによって整数値になっていたり、元々整数値だったものを分位数によってカテゴリ化する際に同順位が多くなることで生じる問題を指摘している。結局、同順位のデータがちょうど分割したい分位数になっている場合に、その数値を上の区間に含めても下の区間に含めても歪んでしまうので、truequantile()のような方法で実数の分位数を見つけて、ちょうど分位数になっている同順位の人数を上と下に按分して、どの人を上の区間に割り当て、どの人を下の区間に割り当てるかを乱数で決めるという動作を1000回くらい繰り返して仮想データセットを作り、必要な統計解析をした後でそれを統合するという方法を試した先人は見つからなかった。欠損値への多重代入法で似たようなことは許されているので、これも理屈の上ではできると思うが、仮想データで試してみたいところではある。そのためにも、小説や漫画の登場人物を想像して作る統計教育サンプルデータプロジェクトは何とか実現したい。

コメント

このブログの人気の投稿

統計教育サンプルデータ作成プロジェクト

差がゼロという帰無仮説以外の仮説の下でのp値の計算

対応のある多群間のノンパラメトリックな比較のためのFriedmanの検定後の対比較について