異常とは何ですか?
異常は、データのプロットを視覚的に検査することにより、グラフィカルに識別できます。また、Zスコアや標準化された残差などの統計的偏差の尺度を計算することにより、数値的に識別することもできます。
データセット内の異常の存在は、統計分析の結果に影響を与える可能性があり、データ分析を実施する際に潜在的な影響を考慮することが重要です。場合によっては、分析前に異常をデータセットから削除する必要がありますが、他のケースでは貴重な情報ポイントとして保持される場合があります。
異常の一般的な例をいくつか紹介します。
*学生のテストスコアのデータセットでは、異常に高いスコアは不正行為によるものである可能性がありますが、異常に低いスコアは、テストの準備ができていない学生を示している可能性があります。
*売上高のデータセットでは、異常に高い販売は特別なプロモーションまたは1回限りの販売によるものである可能性がありますが、異常に低い販売は苦労している店を示している可能性があります。
*医療データのデータセットでは、異常に高いまたは低い読みが、さらなる調査が必要な病状を示している場合があります。
すべての異常がエラーや異常な観察の結果であるわけではないことに注意することが重要です。場合によっては、異常は、基礎となる母集団の正当な変化によって引き起こされる場合があります。たとえば、株価のデータセットでは、異常に高い価格はプラスの収益報告によるものである可能性がありますが、異常に低い価格は悪いニュースによるものである可能性があります。
したがって、それらの重要性について結論を出す前に、異常を慎重に調査することが重要です。
