生存時間解析には、打ち切りと切断という、少々紛らわしい用語が存在する。院生ゼミの時にちょっと関連知識を紹介した。その時の様子をツィートしたら、院生のところに「どう違うのか」と別の大学の院生から質問が来たらしい(すぐに質問するフットワークの軽さは見習うべきだけど。。。)。いい機会なので、理解している範囲でまとめてみる。
結論から言うと、打ち切りありも切断ありも、観測データが不完全であることを指す点では同じだ。しかし、(少なくとも生存時間解析の文脈では)切断ありが観測対象の選び方の不完全さに関連するのに対し、打ち切りは観測自体の不完全さ(例えば、観測期間の短さ)に由来する。以下に例を挙げながら説明する。
1. 打ち切りについて
打ち切りは、生態学関連でも出てくるし、RESTでも使うので私にとってが馴染み深い。
(なんでもいいのだけど、あえてRESTっぽい状況を想定して)動物のある行動の持続時間を測りたいとしよう。行動開始から終了までを常に観察できれば理想的だが、必ずしもそうはいかない。例えば、動物を観察・記録するための装置が「ある時間が経過したら勝手に撮影を終了してしまう」仕様になっているかもしれないし、行動開始時点ではうっかりしていて気づかずに「途中からしか観察出来なかった』ということもあるかもしれない。
これらのデータをそのまま使って行動持続時間を推定すると、過小評価してしまう。このような制約を伴ったデータのことを打ち切りデータと呼ぶ。しかし、打ち切りデータも「少なくとも〇〇より長い」ということを教えてくれるので、貴重なデータなので捨ててしまうのはもったいない。
2. 打ち切りの種類
打ち切りには、左打ち切りと右打ち切り、両側打ち切り、そして間隔打ち切りがある。
左打ち切りというのは、先程あげた例の2番目が該当する。すなわち、開始時点が不明な状況だ。右打ち切りとは、先ほどの1番目の例のように、終了時点が不明な状況を指す。そして、両側打ち切りとは、この両方が生じている場合を指す。
最後の間隔打ち切りは、前提とする観測条件が少しだけ違う。例えば、動物がある行動を続けているかどうかを1分間隔で記録したとする。この場合、持続時間の最小値と最大値は分かるが、ピッタリこれだけの長さというデータを得ることは原理的にできない。このようなデータを間隔打ち切りという。野外データのほとんどは間隔打ち切りな気もするが、意外にそれとして扱われることは少ない気もする。
確率分布を仮定した解析を行う場合、打ち切りデータの尤度は割と簡単に定式化できる。それについては、こちらでも説明しているので参考にしてほしい。リンク先でも述べている通り、理屈は簡単だが、実際の解析でRの関数を使おうとすると、打ち切り(観測なし)を1として指定するものや、観測あり(打ち切りなし)を1と表現するものがあったりして、結構面倒くさかったりする。こういうので躓くのは避けたいところだ。
3. 切断とは?
では、切断とはどのような状況を指すのだろうか。こちらは、生態学ではあんまり出てこないが、医学の世界では頻出なようだ。
ちょうどゼミでも使った「厨二病の発症年齢を推定する」という状況を考えてみよう。中学生を入学時点から追跡調査し、いつ発症したかを記録したとする。まあ、厨二病だと発症のタイミングが不明確だが、それが仮に分かるとしよう。また、後で図にしやすくするために、13歳の誕生日で中学に入学することにしておく。
発症年齢を推定する上で、この調査方法には大きな制約があることは明らかだ。調査対象を中学生の厨二病患者に絞っているので、①小学生の時に発症した人と、②高校生になってから発症する人が対象から抜け落ちているからだ。
図示すると、以下のようになる。①に該当するのデータを左切断データと呼び、②に該当するのが右切断データだ。切断という表現は、真の分布のが13歳と16歳の時点で「切れている」ことを表現したものだ。
最初に「切断ありが観測対象の選び方の不完全さに関連するのに対し、打ち切りは観測自体の不完全さ(例えば、観測期間の短さ)に由来する」と言ったが、その意味が分かってもらえるはずだ。
4. より複雑な状況
実際には、もっと複雑な状況が起こりうる。先ほどの厨二病の発症と同時に、治癒についても記録していたとする。そして、発症年齢、治癒年齢、治癒に要する期間を推定したいとする。この場合、様々な状況を考慮しないといけなくなる.
全部で上の図の6通りが存在する.何を推定する場合に,どれが「打ち切り」や「切断」に相当するのかを考えてみると頭を整理できるはずだ.医学の世界では,多分,「発症のタイミングによって治癒までの期間がどうなるか」みたいな解析をする必要があるんだろうと思う.しかも,途中で治療法を変えたりしながら…これは結構大変な状況だけど,生態学では,幸いそこまで複雑な状況はまれだろう(多分).