フランス CNILが個人データの匿名化について解説


匿名化とはなにか?

匿名化とは、個人データから個人が特定される要素を排除することにより、非可逆的に個人を特定・識別できなくすることである。一方、類似の概念として仮名化があるが、これは個人に関するデータが、追加の情報なしにその個人に帰することができなくなるような方法で個人データを処理することであり、例としては個人の名前を番号やエイリアスなどに置き換える行為である。仮名化データはそれ自体では個人の特定や識別が困難であるが、他の情報と紐付けることによって(例えば連番と個人名との対照表など)それが可能になることから、非可逆的な処理である匿名化と異なる。

CNILが提示する匿名化手法

匿名化の手法として、CNILは以下の2点を提示する。

  • ランダム化:全体のデータ分布を維持しつつ,データセットの属性を変更して,個人の識別精度が低くなるようにすること。この手法により、データセットを推論のリスクから保護できる。
    < 例 > 個人の生年月日に関するデータを交換して、データベースに含まれる情報の信憑性を変更する。
  • 一般化:データセットの属性の規模や大きさの順序を変えて,それが個人の集合に共通するようにすることである。この手法により、データセットの個別化や他のデータセットとの相関の可能性を制限できる。
    < 例 >人の生年月日を含むファイルで、この情報を生年のみに置き換える。

CNILはまた、匿名化に際し以下を推奨している。

  • 保持すべき情報を、処理目的との関連性に応じて特定する(どの情報を持ち続けるかを決める)
  • 個人の直接識別につながる要素や、簡単に再識別できるようにする可能性のある「まれな」データを削除する(たとえば、個人の年齢データが存在すれば、100歳以上の人がとても簡単に再識別できるようになる)
  • 重要な情報を、二次的または削除可能な不要情報と区別する
  • 理想的で許容可能なデータの細かさ(粒度)を定義する

匿名化の効果をどのように確認するか?

欧州のデータ保護当局は、データセットが真に匿名であることを保証するため、3つの基準を定義している。

  • 個別化: データセットで個人を個別に分類させることができないようにする。
    < 例 > 姓と名のみを番号(その人にしか対応しない)に置き換えた履歴書データベースにより、その人を個別化できる。この場合、このデータベースは仮名化されているが匿名化されていない。
  • 相関関係:同じ個人に関するデータの別々のセットを一緒に紐付けできないようにする。
    < 例 > 個人の自宅住所を含む地図作成データベースは、他の場所に存在する他のデータベースが、個人を特定できる他のデータと同じ住所を含んでいる場合、匿名であるとは考えられない。
  • 推論:個人に関する新しい情報を高い精度で推論できないようにする。
    < 例 > 匿名と思われるデータセットに、アンケートに回答した人の税額に関する情報が含まれている場合、回答した20歳から25歳の男性が全員非課税であることがわかれば、24歳の男性であるX氏がアンケートに回答したことをあわせると、そのアンケートでX氏が非課税であることを推論できるようになる

仮名化情報は、日本の個人情報保護法改正でも主要な改正点とされており、ビジネスにおける個人データの活用手段として注目が高まるとみられる。一方、仮名化は、個人データとしての本質を失っていないという点で匿名化とは根本的に異なり、仮名化データはGDPRや改正個人情報保護法の規制対象となることを十分に認識すべきだろう。

【CNILの解説】
https://www.cnil.fr/fr/lanonymisation-de-donnees-personnelles

関連記事