baseグラフィクスの方が楽

2月 18, 2024

gridグラフィクスが流行している理由が、やっぱり良くわからない。

例えば、bob3bob3さんの『データ可視化学入門』をPythonからRに翻訳した話で、日本の人口変化をChatGPT4ベースのCopilotを使ってPythonからRに翻訳させるとggplot2を使ったコードが出てくるようだが、この程度ならデータ定義部分だけ元コードからコピペして

X <- data.frame(year = 1990:2022, pop = c(1.23611, 1.24101, 1.24567, 1.24938, 1.25265, 1.2557, 1.25859, 1.26157, 1.26472, 1.26667, 1.26926, 1.27316, 1.27486, 1.27694, 1.27787, 1.27768, 1.27901, 1.28033, 1.28084, 1.28032, 1.28057, 1.27834, 1.27593, 1.27414, 1.27237, 1.27095, 1.27042, 1.26919, 1.26749, 1.26555, 1.26146, 1.25502, 1.24947))

とデータフレームXを定義しさえすれば、コードとしては、

plot(pop ~ year, data=X, xlab="西暦", ylab="日本の総人口[億人]", type="b", col="blue", pch=16, las=1); grid()

で済む。パイプを使うよりも、データはいったんオブジェクトとして定義（付値）しておく方がRの思想的にもわかりやすいし、すべて標準のbaseグラフィクスで書けば、間違いなくどのR環境でも動くわけだから、Copilotすらggplot2を使うコードを出してくるのが謎でならない。念の為、bob3bob3さんのコード移植にはAI活用が便利という発表主旨には賛成で、スライドも素晴らしいと思うが、世の中で広まっているやり方に引きずられるのは欠点だと思う。

統計相談に乗ったときのメモ

baseグラフィクスの方が楽

コメント

コメントを投稿

このブログの人気の投稿

カテゴリ3つ以上の割合の信頼区間

オッズ比よりもリスク比を推定すべきという話

対応のある多群間のノンパラメトリックな比較のためのFriedmanの検定後の対比較について