統計教育サンプルデータ作成プロジェクト

このところ保健学研究共通特講IV, VIIIにおける統計教育の改善方法についてつらつら考えていて(というか結果的には無駄になってしまった某業務のため、強制的に内容の再整理を考える必要があったのだが)、自由に使える適当なデータが欲しいと思うようになった。作図の説明のためには、量的なデータと質的なデータが混在している何百人規模のものが適していて、これまではMASSパッケージのsurveyという、アデレード大学の統計関係の学生のデータを使ってきた。自分のデータを公開するのは、匿名化したとしても倫理審査関係のクリアが難しいなあと思って、そこで思考が停まっていたが、ふと、架空の人物について想像したデータをバザール形式で作ってしまえば良いのではないかと思いついた。

質問紙はウェブのフォームで作り、完全匿名で(何の登録も必要ないゲストとして)ボランティアを募って(botに入力されないような仕組みは必要だと思うが、メール認証までしなくても、良くあるCAPTCHA、例えばPerlのcgiならこのモジュールを使うとか、あるいはTurstileで十分だろう)、自分が好きな小説や漫画の登場人物について作品中で明らかになっている情報や、性格的には読者が想像した情報で、登場人物の気になって埋めてもらうのだ。そうすれば、個人情報にも抵触しないし、倫理的な問題も生じないはずだ。データやプロジェクトのタイトルを読者が勝手に想像した架空人物の社会心理的特徴、とでもするか。

たぶん架空人物も成長するので、何歳時点のデータというのを想像した場合は何度でも入力できるようにしたい。例えば20代のシャーロック・ホームズと、ライヘンバッハの滝から生還後の40代のシャーロック・ホームズでは別データとなる。高村薫『李歐』の李歐や吉田一彰は、22歳の時と再会後では別データとなる。名前、年齢、身長、体重(を入れるためには、人間に限るとしなくてはデータにならないが、明らかに定量的なデータとしては身長と体重くらいしか想像で入力できるものが思いつかない)、性別(架空人物の場合は、新井素子『二分割幽霊奇譚』の主人公のようなインターセックスの登場人物は珍しくないので、それ以外と不明というカテゴリは必須だな)、同居世帯構成(ワンピースのサニー号乗組員のような場合もあるので、血縁関係なしが何人、というカテゴリが実在する人物とは大きく違ってきそうだ)、親しい友人の数(ワンピースのルフィだと大変な数になりそうだが、最上位のカテゴリを200人以上、とかの順序カテゴリにすれば良いか?)、といった基本情報に加えて、自己効力感とかBig5とか使用許可をとらなくてはいけないが、PHQ-9とかPHQ-15とかGAD-7とか、ソーシャルサポートとかソーシャル・キャピタルに関する尺度の質問紙を加える。入力されたデータは随時csvでダウンロードできるようにする。詳細は後で詰めるとして、基本仕様はこんなものか。

コメント

このブログの人気の投稿

差がゼロという帰無仮説以外の仮説の下でのp値の計算

baseグラフィクスの方が楽