保険データサイエンス

updated 2019.9.28


保険データサイエンス

データサイエンスによる保険イノベーション

ヘルスケアを初め、科学研究、政治、スポーツなど、あるとあらゆる側面において、データサイエンスは我々の日常生活や科学研究を変えつつあります。

保険業界も例外ではありません。

保険商品が

  • 誰に
  • どのように

提供されるべきか、という本質的な問題に対して、データサイエンスは実質的な革新を促進する起爆剤となることは間違いなさそう。リスク管理は保険業の中心的課題です。様々なリスクの性質を理解することが本質的であり、そのためには保険者は大量のデータを収集しています。データサイエンスは、自動車や人、財産など保険対象物のリスクに対してこれまでにない詳細を把握し、また精細な分析をすることが可能になり、保険会社にリスク分析の新たな段階に引き上げていくことを可能にしています。データサイエンスは、データ内に隠されている種々の関係性を特定し、大規模でまた更新し続けているデータに基づくより良い予測をもたらします。データサイエンスは既に

  • 自動車保険のテレマティクス(Telematics)機器の活用
  • 健康保険におけるウェアラブルフィットネス機器の活用
  • 生命保険における経験分析 (experience analysis) による高度なリスクの管理

をし始め、静かなデジタル保険イノベーションをもたらそうとしています。

データサイエンスは、保険会社に利益をもたらすだけではありません。保険政策ライフサイクルの各段階において、

  • 消費者ターゲティングと商品設計個別化
  • リスクアセスメント、契約査定(underwriting)と適切な価格設定
  • 詐欺行為(fraud)の特定と回避管理

を可能にし、消費者にも利益をもたらします。

 

保険データサイエンスの役割と期待

顧客選別と商品設計

データに基づく決定を行えば、意図した顧客にターゲットを当て、より適切な商品を開発し勧めることができる。例えば、インターネット検索履歴の分析により消費者の好みや行動を予測することができる。これらの分析結果を用いて、消費者と商品間の適切なマッチングを行うことができる。保険会社にとっては、消費者の好みや行動分析は、消費者のニーズの変化を把握する上でも重要であり、また新たな商品開発にも役に立とう。スマートアプリ(smart Apps)の増え続けている利用とそれに適切な分析により、特定の性質を持つ消費者集団に対して新たな保険領域の開拓なども考えられる。

契約査定と価格設定

保険業界におけるデータサイエンスの最も大きな役割は、適切な契約査定や価格設定における顧客のリスク評価である。
顧客や顧客の資産に関する様々なデータを集め、クレームが発生する確率と発生した場合に伴うコストの評価は従来から行われてきた。
これらのリスク評価により、標準的な条件でリスクを受け入れるか、修正された条件で受け入れるか、または却下するかの、いずれかの契約査定が行われる。

データサイエンスの力を活かせば、保険会社は顧客のリスク・プロファイルをより詳細に見ることができる。このようなより精細なリスク評価は、根拠に基づいたより良い契約査定に繋がることを意味し、リスクに見合うより適切な保険料の設定を可能にする。適切なリスクア評価は、顧客に恩恵をもたらすことも考えられる。例えば、特定の若者に対して、運転を含めたより詳細なデータを解析すれば、標準より安い自動車保険料を設定することが考えられる。

顧客のより強い関与

データサイエンスは、保険契約の過程の改良に貢献し、顧客の積極的な関与が促進されることにより、保険契約者と保険会社の双方とって利益をもたらす。例えば、自動車保険の場合はテレマティクス機器を、また健康保険の場合はウェアラブルフィットネス機器を通して、顧客のリスク・プロファイルの改善が確認されれば、保険料を低く設定できる。保険料の引き下げにより、保険契約者は自分のライフスタイルの「危険性」を軽減する努力が奨励される。このように保険契約者にインセンティブを与えることにより、データサイエンスは社会全体に利益をもたらす。また顧客の積極的関与は、「オンデマンド保険」(on-demand insurance)というこれまでにないサービスを提供することが考えられる。例えば、自動車保険の場合、スマートフォンを介して保険のオン・オフを切り替えることが考えられる。

クレーム管理

データサイエンスは、保険金請求管理と関連する苦情処理をより効率的に処理する役割を果たし、保険契約者と保険会社の双方に恩恵をもたらします。データの統計解析により、クレームの客観的な順位付けを与えることができる。迅速な処理が可能なクレームには迅速に処理をし、より複雑な案件には時間をかけて更なる分析や評価を行う。SNS活動や関連情報の分析により、一連の虚偽または過大化されたクレームを効果的見抜けることが期待される。デジタルデータの活用により、クレーム処理の速度の向上と共にビジネスの機会も同時に増える。

 

Based on Data Science in insurance: benefiting from the digital experience, published by  the Institute and Faculty of Actuaries, UK, September 2017.


保険データサイエンス・セミナー

東京理科大特別講義:保険データサイエンス−Data Science for Sustainable Insurance

場所:東京都新宿区神楽坂1−3 212教室(2号館2階)
時間:2019年9月28日(土)
発表者:汪 金芳(横浜市立大学 DS学部)

保険データサイエンス・セミナー(第1回):海外の動向

場所:横浜市立大学 金沢八景キャンパス 5号館1F実習準備室
時間:2018年5月21日(月)14:30 – 16:00
発表者:汪 金芳(横浜市立大学 DS学部)

セミナーの内容紹介:

今回のセミナーでは、2018年6月16日にロンドン大学にて開催される国際会議

Insurance Data Science Conference 2018
(保険データサイエンス大会2018)

の発表概要を紹介します。「保険データサイエンス」の名を冠した今回の大会は第1回目のようです。会議の抄録を以下に纏めてみました。

 

基調講演1:

退職・年金計画における長寿リスクのモデリングについて
Modelling longevity risk for retirment and pension planning
by Gareth Peters (Heriot-Watt University, Edinburgh)

この講演では、死亡率データに基づいた、よりよい(平均)余命予測モデルをに関するこれまでの一連の研究を紹介する。

寿命と死亡率の予測は、年金計画や退職年齢の決定、政府の政策決定などに重要な影響を与える人口統計の研究における重要な研究テーマである。卒業時効果(graduation temporal effects)、期間効果(eriod effect)、コホート効果(cohort effects)、確率論的ボラティリティ(stochastic volatility)、および長期記憶(long memory)などの要因を取り入れ、よりよい生命表の予測と推定を行うための回帰モデルを提案する。

さらに、標準年金(standard annuities)、純粋生存保険(pure endowments)および利回り保証選択権(Gauranteed Annuity Oprtions)でよく発生する誤算(mispricing)を示す。

 

価格設定とクレーム・モデリング
(Pricing and Claims modelling)

複数のLassoペナルティが混在する場合の予測モデルの構築について
Sparsity with multi-type lasso penalties
by Tom Reynkens (KU Leuven)

保険会社では予測モデルを用いて、価格設定(pricing)や、マーケティングキャンペーン( marketing campaigns)から、詐欺(fraud)、倒産(churn)の検出まで、様々な分析を日常的に行っている。これらの分析において、非常に多くの潜在的リスク要因を考慮にいれる必要がある。潜在的リスク要因には、多くの連続変数、順序尺度、名目変数、空間的変数が含まれる。予測モデルの構築において、これらのリスク変数のセットから適切な変数選択を行い、性能に優れる予測モデルの構築が必要である。このような予測モデルは、予測性能が優れているだけでなく、保険契約者(policyholder)や規制当局(regulator)をはじめとして、ステークホルダー(利害関係者;stakeholder)にとって解釈可能性も重要視される。実装や継続的な運用の視点も重要である。

現在保険数理の分野では、アドホックな方法を用いて変数の除去やレベルの結合などを行い、その後に、一般化線形モデル(GLM; generalized linear model (McCullagh and Nelder(1983), (2016))の適用が盛んに行われているのが現状である。一方、予測モデルの構築に関して、統計学および機械学習の分野においては、罰則付き回帰分析(正則化回帰分析;penalised regression)の方法を用いて、変数の選択(variable selection)とビン化(binning)をデータに基づいて自動的に行うのが一般的である。

しかし、従来の正則化モデルでは、変数が同じタイプのものであることを想定している。たとえば、Lasso(Tibshirani, 1996)は連続変数に対して、Fused Lasso (Tibshirani et al., 2004)は序数変数に対してそれぞれ適用されている。本論文では、複数のタイプのLasso正則化項を含むGLMを用いて、変数選択とビン化を同時に行う方法を提案する。提案するモデルは、異なるタイプの変数とそれぞれの変数タイプに適したペナルティを同時に考慮する。本論文では、近接写像(proximal operator, Parikh and Boyd (2013))の理論を用いて、全体的な最適化問題を変数ごとの部分的最適化問題に分解し、計算効率のよい推定法を提案する。

このようにして、統計的根拠に基づいた、変数の選択、グループの推定、異なるタイプの変数(連続変数、序数変数、名目変数、および空間変数)の結合などを同時に行う予測モデルの構築を提案できた。最後に、統計解析ソフトであるRを用いて、自動車保険における価格設定に関するケーススタディを紹介する。

気象関連資産の保険請求数に関する統計解析
Statistical analysis of weather-related property insurance claims
by Christian Rohrbeck, Lancaster University

重大な損害を引き起こす気象現象は一般的な関心事である。保険会社は水関連資産に対する適切な保険料の設定が求められる。この講演では、降雨や雪解けなどの気象現象と水関連資産における保険請求数との関連に関する研究結果を報告する。建築構造の違い、気候の違い、地理的違いなどの要因を考慮に入れる必要があり、適切な統計モデルの構築は必ずしも容易ではない。

本講演では、保険請求数が多い場合に対応できない従来のモデルを改良できる新しいモデルを提案する。気象メトリックに基づいて、連続した日数におけるクレームを合併できるクラスタリング・アルゴリズムを提案する。このようにしてより有益な説明変数を導出できた。また混合モデリング(mixture modelling)などを適用し、保険料請求数と気象現象との関連性に関してよい知見を導出できた。Rを用いてクラスタリング法や統計的推定を行った。提案する方法を、ノルウェーの都市、オスロ(Oslo)、ベルゲン(Bergen)、バリュム(Bærum)ににおける、1997年から2006年の保険および天気データに適用し、方法論の有用性を説明する。

テレマティクス自動車運転データを用いた保険金請求頻度の統計的モデルについて
Claims frequency modelling using telematics car driving data
by Mario Wüthrich, RiskLab, ETH Zurich

Gao and Wüthrich (2018)はテレマティクス自動車運転データを用いた保険金請求頻度の統計モデリングについての考察を与えている。本論文では Gao and Wüthrich (2018) が開発したv-aヒートマップ(v-a heatmaps)を用いて、抽出された種々の共変量の予測性能についての評価を行う。これらのテレマティクス関連の共変量には、K平均分類、主成分、およびボトルネック・ニューラルネットワーク(bottleneck neural network)によるボトルネック特徴量(bottleneck activations)などが含まれる。

本研究では、保険金請求頻度を予測するのに、第1主成分およびボトルネック特徴量が運転者の年齢よりも有意であることを判明した。したがって、保険価格の設定の際に、年齢よりもこれらのテレマティクス関連の共変量を重視すべきであろう。

アクチュアリーのための機械学習入門
Machine learning for actuaries: An introduction
by Valerie du Preez, Dupro
Co-authors: Steven Perkins, Zhixin Lim

計算能力の向上は、金融、自動運転、画像検出、音声認識など、幅広い分野における機械学習技術の適用を可能にした。いまや機械学習の技術は、大量かつ多様性に富むデータから知見を得るための、不可欠ツールキットとなっている。計算機処理能力の向上と共に、データの指数的生成速度、データの収集と保存方法の劇的改善が、アクチュアリーにとって2つの重要な影響を与える。

  • 第1に、データ環境と計算能力の向上は、従来のアクチュアリー分析をより高度に行うことが可能となる。
  • 第2に、多くのアクチュアリーが、新たなビジネス分野の開拓に必要なスキルを持つこととなる。

本講演では、高度な機械学習の理論について説明をし、また英国のアクチュアリー研究所(Institute of Actuaries, UK)で実施されたケース・スタディを取り上げ、アクチュアリー分析の更なる展望を与える。

 

詐欺による運用損失分析のための切断回帰モデル:Rにおける高性能計算機実装
Truncated regression models for the analysis of operational losses due to fraud: A high performance computing implementation in R
by Alberto Glionna, Generali, Giovanni Millo and Nicola Torelli, Italy

詐欺に起因する運用損失モデルを構築する際に、データは特定の金銭的基準を超えた場合にのみ収集されることがしばしばある。計量経済学および統計学の分野では、このようなタイプの観測は打ち切りのある観測として知られている。打ち切りのある観測値に基づく予測モデルの構築と推定において種々の注意を払う必要がある。

Assicurazioni Generali(ゼネラリ保険会社)が、拡張一般化線形モデル(AGLM;Augmented Generalized Linear Model)と呼ばれる手法を開発し、打ち切りのある観測値に基づく運用損失の不偏推定を可能にする方法を提案した。しかし、信頼区間の構築に必要なパーセント点の推測などにおいて、アルゴリズムが複雑なため、多くの計算時間を要するという欠点がある。

この論文では、AGLMにおける上述の欠点を克服し、計算時間を大幅に短縮できるアルゴリズムを提案する。ある種の条件が満たされるとき、打ち切りのある観測値に基づいたより正確な分析が可能であることを示す。特に、Rのパッケージである`parallel’ and ‘shiny’を用いて、ブートストラップ法(汪・桜井(2011)))を加速させる方法を提案する。Rの前提知識がなくても提案法を実行することができる。

ランダムフォレストを用いたリスクプロファイルと故障確率の推定について
Using Random Forest to estimate risk profiles and probability of breakdowns
by Lara A. Neira Gonzalez, University of Edinburgh
and Martin Kreer, Jose-Maria Guerra, Alfredo D Egidio dos Reis

過去10年間、機械学習の技術が、遺伝学、金融、ヘルスケアなどの様々な分野において一般的に使われてきた。 p >> n(次元数が標本数を大きく超える)のようなビッグデータに対して古典的統計解析が困難な場合に、機械学習アルゴリズムが非常に魅力的な手法として使われてきた。故障の正確な推定は、予測的な保守だけでなく、産業機器の保険料の計算にも適用できると考える。本研究の目的は、訓練データとテストデータを使用して機械学習の技術を使用して故障確率の新たな推定法を考える。

補遺:LASSOの一般化と近接勾配法

多くの考慮すべき要因から適切な変数を選び、よりよい保険予測モデルの構築のために、LASSOや、Fused LASSO、Group LASSOなどの現代的回帰分析法が必要である。これらの方法の背後にあるのが微分不可能な点を含む凸関数の最小化問題である。この問題を解決するためによく用いるのが近接勾配法(Proximal Gradient Method)である。

LASSOの一般化と接近勾配法の概要を纏めた。