『フリーソフトRを使ったらくらく医療統計解析入門』書評

島根大学特任教授 小林祥泰

 この度、医療統計に苦労している医療関係者にとって画期的な本が出版された。とくに私のような初代Macintoshの卓越した性能に惚れ込んで以来の生粋のMACユーザーにとって、とても使いやすかった「StatView」が販売中止になり、使い慣れないソフトで苦労していた者には朗報である。
 私は「脳卒中データバンク」の統計を、最初の2回までは例数も16,000例までだったので「StatView」を使って自分で解析し著者に提供していたが、4万例以上のデータは「StatView」では扱えず、医療統計の専門家である大櫛陽一先生にSPSSでの解析をお願いしてきた。だから、高価な統計ソフトを使うまでもない比較的少数のデータを扱う、しかも統計が得意ではない研究者にとって、この本はきっと役に立つと思われる。なぜなら、医療統計の基本が実践的なデータの例題を見ながら分かりやすく説明されているからであり、WindowsのみならずMACでも、本格的な統計解析が「無料で」行えるからである。
 大櫛先生は、これまで多くの地域コホート研究で膨大なreal worldの医療関係データを解析してこられ、『コレステロールと中性脂肪で薬は飲むな』といった過激な本で学会に挑戦し続けている。その裏付けには医療に特化した正確な統計解析が必要であり、その観点から本書では、まずデータの内容や分布の吟味を行い、その上で統計解析法を選んでいく手順を示されている。
 即ち、まずデータを表またはグラフにしてみる。データ入力ミスのチェックにもなる―余談だが、統計で恐いのは入力ミスである。私も脳卒中データバンクの解析でデータクリーニングに膨大な手間を費やした―。その上で何を比較するのかを検討し、色々な影響因子を加味した多変量解析などを、実際のデータを使って具体的に示しながら「R」による解析を進めている。ROC曲線が複数の検査の優劣の比較には適しているが、有病率が高い専門外来(有病率=50%)以外では不適切なことなども指摘されている。大腸癌と生活習慣の関係を見た多重ロジスティック回帰分析やライフスタイルと糖尿病発症のCox比例ハザード回帰分析、患者が病院を選ぶ因子をみる因子分析、生存率を比較するKaplan-Meier法など、ほとんどの医療統計に対応しており、この本で取り上げられた豊富な例題を実行していくことで、これらの統計の基本を一から学ぶことができるのである。
 ところで中山書店のホームページにアップされたRスクリプトなどはWindows用だったので、ダウンロードしてもMACでは文字化けしてそのままでは使えず、一苦労であった。しかしこの点はすぐに改善され、中山書店でMAC用の解説とRスクリプト、事例データを作成し、ホームページのサポートサイトにアップされたので、いまやMACでもスムーズに使える環境となった。プログラミングの初心者でも、本書にある解析ならRスクリプトをそのまま使って、読み込むデータファイル名を自分のデータファイル名に変更すれば、同じ解析が可能である。
 従来は英語版の「R」を初心者が使うことは至難の業であったが、この本によって「R」を使いこなせる道が開けたことと、医療統計学の意味を理解して自己の解析に応用できるようになることの意義はたいへん大きい。