一、辨析传闻绍介

保险是近两年来的热门题目。,我的传闻是在我认识到了数据辨析随后的定约雇用完好的任命。。这项任命将在年捕捉中国在下方签署并承担责备的根本数据。,了解属性和保证保险的现况,过来的开展和自食恶果的驱动力。

这项任命在过来的两年中被选中,我在国际米兰,我通常更注意在下方签署并承担责备的复杂辨析,从正题选择,数据攫取,建模和辨析是孤独完好的的,继续了一星期,这花了很多工夫。。不管这份传闻对真正的勤劳来说仅稍微浮浅的。,但这也给了我独一罚款的变得流行。,体会数据发掘/数据辨析的全部的过程。最大的觉得是最重要和最好的。,十足完好的数据,具有良好的数据,安逸,后一种辨析和建模通常是独一成绩。。

更,保险属性中间定位书信和知识点查询,也感激我的容貌攻击的保险中间人陆英,他一向都是。

二。运用的高音的器

女用长围巾版本: Python3.6
jupter notebook: Anaconda3-.0-Windows-x86_64
pandas:数据辨析读取数据
matplotlib:地基
rcParams:用来精神健全的显示国文,并设置国文字形

三.保险数据收集

这次传闻的数据是经过和讯保险年史收集自2013年1月至2018年9月的保险属性根底数据,高音的是额外费用总计达。,各类额外费用,补足支出额总计达,各类保险补偿支出额数据。
在这里省略了详述的数据匍匐交换编码。。

四.数据洗涤和期待

在数据匍匐阶段随后,笔者行情了所稍微数据结合独一以月为辨识符号的二维阻碍(total_data),接下来笔者必要做根底数据期待。,这包孕营造独一数据帧,检查数据投下和不公正不动产权,添加投下和更新不公正数据。

import pandas as pd
import numpy as np
a = np.vstack(total_data)
columns_name =[雇用,'原始保险的总附加费支出','遗产保险支出','容貌攻击的保险总支出','人寿保险费支出','康健保险支出','容貌攻击的不测损伤保险支出','原始保险补偿支出额总计达','遗产保险支出额','人寿保险费总支出额','人寿保险费支出额','康健保险支出额','容貌攻击的不测损伤保险支出额']
df = pd.数据用锉锉(data = a,columns = columns_name)

df.date = pd.to_datetime(df.date)
df.set_index(雇用,inplace =True)

df1 = df.loc[:,:].astype(float)

鉴于数据是直线性的,因而笔者可以画一幅图来看一眼数据收集在监狱里的哪一个完好的。,有什么不公正吗?。
###############################################
####本段满足是为了解决图画无法显示国文字形的成绩,假定可以显示国文则省掉落实本段满足
任命默许字形 必要先在线下载 用锉锉放入 ~\Anaconda3\Lib\site-packages\matplotlib\mpl-data\fonts\ttf 中,与打印文件以下命令:

import matplotlib
matplotlib.rcParams['''']=[西米椰子] 
matplotlib.rcParams['''']=无衬线
matplotlib.rcParams['''']=False

###############################################

from matplotlib import pyplot as plt
%matplotlib inline
df1.plot(figsize=(16,9))

在在这里插入图片描述

依据图示,笔者可以音符2016年的后半时。,1月17日,12月数据间断,更,7月16日, 在18年的2月和8月,这些机器人发作了突破。,预测数据的概率不正确。在这里的数据更新可是手工输出。,整流数据出生于保险接管机构的官方网站。。

官方网站数据网页没匀称,网页中变清澈的年份的表格体式不符合,从此,它失去嗅迹作为数据发送器指导采样的。。

df2 = df1.replace(0,np.nan)
data1608 =[22958.9373,5635.0848,17323.8524,13721.4564,3098.2305,504.1655,6901.1431,2937.1279,3964.0152,3242.7249,60101,115.9803]
data1609 =[25168.2615,6370.5827,18797.6788,14783.8733,3430.4069,583.3985,7750.6999,3321.5870,4429.1129,3610.5333,687.1908,131.3888]
data1610 =[27010.3752,7018.3821,19991.9932,15703.9707,3647.7410,640.2814,8526.1670,3670.1245,4856.0425,3946.5561,763.4167,146.0697]
data1611 =[28864.8711,7773.0544,21091.8167,16556.6817,3841.7960,693.3390,9450.0194,4131.1226,5318.8968,4287.5209,870.7195,160.6564]
data1701 =[8553.4033,973.8127,7579.5907,6861.5894,641.1138,76.8875,1277.2914,419.6850,857.6063,729.5261,109.4866,18.5937]
data1712 =[36581.0074,9834.6579,26746.3495,21455.5650,4389.4604,901.3241,11180.7933,5087.4496,6093.3437,4574.8907,1294.7670,223.6859]
data1612 =[30959.1009,8724.4981,22234.6028,17442.2167,4042.4968,749.8893,10512.8900,4726.1839,5786.7061,4602.9462,1000.7522,183.0077]
df2.loc[''2016-08-01'']= pd.Series(data1608,index = df2.columns)
df2.loc[''2016-09-01'']= pd.Series(data1609,index = df2.columns)
df2.loc[''2016-10-01'']= pd.Series(data1610,index = df2.columns)
df2.loc[''2016-11-01'']= pd.Series(data1611,index = df2.columns)
df2.loc[''2017-01-01'']= pd.Series(data1701,index = df2.columns)
df2.loc[''2017-12-01'']= pd.Series(data1712,index = df2.columns)
df2.loc[''2016-12-01'']= pd.Series(data1612,index = df2.columns)
df2.loc[''2016-07-01'']['原始保险补偿支出额总计达'], df2.loc[''2016-07-01'']['人寿保险费支出']= df2.loc[''2016-07-01'']['人寿保险费支出'], df2.loc[''2016-07-01'']['原始保险补偿支出额总计达']
df2.loc[''2018-02-01''][-1],df2.loc[''2018-02-01''][-3]= df2.loc[''2018-02-01''][-3], df2.loc[''2018-02-01''][-1]
df2.loc[''2018-08-01''][-1]= df2.loc[''2018-08-01''][-4]-df2.loc[''2018-08-01''][-3]- df2.loc[''2018-08-01''][-2]
df2.plot(figsize=(16,9))

在在这里插入图片描述

查了官网后,笔者还瞥见,每月数据究竟是当年1月以后的数据总和。,而失去嗅迹每月数据,这隐含笔者有一月集团外的的数据。,掌握数据都必要已往独一月减去。,以算出真正该月发生的保险数据。

df_month = df2.copy()

i =len(df_month)while i >0:
    i -=1if(df_month.index[i]).to_pydatetime().month ==1:continueelse:
        df_month.loc[df_month.index[i]]-= df_month.loc[df_month.index[i]- pd.DateOffset(months=1)]
df_month.plot(figsize=(16,9))

在在这里插入图片描述

接下来,依据月经数据营造一刻钟和年度数据

df_year = df_month.resample(''Y'').sum()
df_quarter = df_month.resample(''Q'').sum()

五、数据辨析阶段

数据辨析阶段,笔者将它分为容易数据不动产权辨析,停止了很久以前的统计数字资料辨析和自食恶果的不动产权预测。

在下方签署并承担责备现况辨析

笔者将经过对2018年在下方签署并承担责备支出和支出额的饼图来停止容易在下方签署并承担责备的不动产权辨析。
2018年附加费支出与薪酬饼图
率先精确地解释独一复杂作用,使得饼图中非但可以显示手续费,它还可以显示详述的数字。

defpct_number(pct, data):
    number =float(pct/100.*np.sum(data))return"{:.2f}%\n({:.2f} 亿元)".format(pct, number)

fig, axes = plt.subplots(nrows =1, ncols =2,figsize =(14,6))
axes[0].axis(均等)
axes[1].axis(均等)

labels0 =['遗产保险支出','人寿保险费支出','康健保险支出','容貌攻击的不测损伤保险支出']
labels1 =['遗产保险补偿','人寿保险费补偿','康健保险补偿','容貌攻击的不测损伤保险决定性的']

axes[0].set_title("2018 保险支出", fontsize =20)
axes[1].set_title("2018 保险补偿", fontsize =20)
axes[0].pie(df_year.iloc[-1,[1,3,4,5]], labels = labels0,autopct =lambda pct: pct_number(pct, df_year.iloc[-1,[1,3,4,5]]))     
axes[1].pie(df_year.iloc[-1,[7,9,10,11]], labels = labels1,autopct =lambda pct: pct_number(pct, df_year.iloc[-1,[7,9,10,11]]))

在在这里插入图片描述
经过在饼图中显示保险洁治和本钱从2,笔者看得很变清澈。:

1。保险支出教派,人寿保险费约占六岁结合教派,它是承保人的对立支出合唱团主唱。。不管到什么程度,在支出额教派,人寿保险费失去嗅迹最贵的,同时,支出和支出额当中的均衡很大。

不管到什么程度为什么会队形因此的数据差距呢?实在懂点商业保险的都了解纯的的人寿保险费平行保额对应的附加费遍及并不熟练的比康健险更贵,因而在这里的人寿保险费是独一行情术语。,就容貌攻击的就,依我看在监狱里很大一教派霉臭是同样的人的年金保险。。鉴于年金保险同样一种音管,从此,可以变得流行,人寿保险费也属于原始的类。。

同时,年金决定性的与补足的特征,倚靠保险是短期或活期决定性的大批附加费。,保险后行情大额保险补偿,公正的地说,倚靠非保险人的额外费用都决定性的给了保险人。。
但年金保险的特征是被保险人必要,被保险人每年可行情大批的恒定补偿金或,不管到什么程度,补偿的次数/年数一向继续到。在对我们来说决定性的了大方的额外费用后,对我们来说在此擦掉。,用这笔钱获得承保人盈余所得。就是,使用自身的资金。,这与旁人的额外费用有关。。
更,年金险普通还会同时卖独一全能者险,同等补充独一高额货币利率的存款储蓄理由,又是独一吸钱凶手。。

年金保险的支出很高。,低补足的特征,使寿险不能废除的地相称高音的成绩。。

2。容貌不测损伤保险进出洁治A,辨别是非唯一的2%和15%。,后果象征,这两类保险并非承保人关怀的注视。。不管到什么程度这两种保险的支出和支出额差距是ALS,这阐明它们也有罚款的开展围绕。。

3.财险支出占比不到三成却要支出额四成五的补偿,遗产保险按补偿洁治列原始的。遗产保险自身的花色品种太复杂了,出生于坐电车保险,房屋险,对槽,战场,甚至杂多的荣誉责备,与性命有关的一切都是遗产保险。。容貌攻击的遗产承保人,公司参保定约雇用每年发作变乱,安逸和报酬变乱的总量可能会极大地假装增加表。,但就全部的推销来说。,遗产保险推销是独一长成波动的推销。。

很久以前统计数字资料辨析

就过来的统计数字资料,笔者将辨析附加费支出和补足归纳又。


my_colors =[''r'',''g'',''y'',''b'']

fig, axes = plt.subplots(nrows =2, ncols =1,sharex =True,figsize =(16,12))  

df_quarter.iloc[:,[1,3,4,5]].plot.bar(figsize =(16,9),ax = axes[0],color = my_colors)
df_quarter.iloc[:,[7,9,10,11]].plot.bar(figsize =(16,9),ax = axes[1],color = my_colors)

axes[0].set_title(一刻钟保险支出,fontsize =15)
axes[1].set_title(一刻钟保险支付,fontsize =15)

axes[1].set_xlabel("日期")
axes[1].set_ylabel("单位: 亿元")
axes[0].set_ylabel("单位: 亿元")

patches, labels = axes[0].get_legend_handles_labels()
axes[0].legend(patches, labels, loc =2)

在在这里插入图片描述
从各一刻钟支出和薪酬的条线图可以看出:

1。从附加费支出看,总而言之,人寿保险费和遗产保险支出是罕有的重要的。。在监狱里寿险在每年的原始的一刻钟总能量绝尘,与掌握倚靠典型的保险队形巨万的差距。出现究竟是是你这么说的嘛!养老保险队形的。。鉴于养老保险的可怕的效益,每年岁暮年终和新年伊始,被保险人,这些草创反对改革的保守当权派根本上是年金保险。。这就队形了原始的一刻钟很多的的附加费支出。

2。从附加费支出额看,率先,笔者可以瞥见Y轴单位的全部的挨次变清澈的于,后果象征,在下方签署并承担责备的全套服装发工资生产率依然是V。。其次,不在乎顶峰依然是人寿保险费,但刻薄的就,很分明,遗产保险的总支出额,这也与。至若为什么原始的一刻钟寿险赔的也特殊多呢?安逸是鉴于年金险因此一刻钟签得多,鉴于年金保险是扩音机度决定性的的,安逸,同样的季的补足更大。。 风趣的是,遗产保险永远在四个一刻钟决定性的至多,一年前霉臭和人人处理的。,为了停止年度利害统计数字是不相干的。。

from matplotlib.ticker import FuncFormatter

df_month_rate = df_month.pct_change(periods =12).iloc[12:,:]
  
fig, axes = plt.subplots(nrows =2, ncols =1,figsize =(16,12))

df_month_rate.iloc[:,[3,4]].plot(color=[''g'',''y''], ax = axes[0],figsize=(16,12),grid=True)
df_month_rate.iloc[:,[1,5]].plot(color=[''r'',''b''], ax = axes[1],figsize=(16,12),grid=True)defto_percent(temp, position):return''%.f''%(100*temp)+''%''for i inrange(0,2):
    axes[i].横轴线.set_major_formatter(FuncFormatter(to_percent))
    axes[i].set_ylabel("同比升压速度")
    axes[i].set_xlabel("日期")
    axes[i].axhline(y=0, color=黑色, lw=2)
    
axes[1].set_title(遗产/不测损伤保险月经年升压速度,fontsize=15)
axes[0].set_title("寿险/康健险月同比升压速度",fontsize=15)

在在这里插入图片描述
从分类后的月同比升压速度可以看出。:

1.依据Y轴的数值,普通来说,杂多的保险支出和补偿都在增长,阐明我国在下方签署并承担责备晚近开展神速。。

2。就杂多的保险就,笔者可以音符,医疗保险支出的关系上地升压速度是,最大增幅可超越125%。当初干舷的升压速度高音的是鉴于16岁暮年终前推销有很多带理财属性的短期/活期康健险(很多都是指导存款当有保险功用的理遗结果代卖),当初受到了顾客的欢送。。

又,笔者可以音符,康健保险的对立升压速度,17年中18年首均为负。这臀部的出现是它始于16年中。,中间定位接管机构和高级管理人员开端发给保险荣誉,命令属性回归提供消息的人,大举开拓保证结果,这和钱的胶料有关。,防止潜在的倾斜飞行体系风险。从此,曾经声称了稍许地白色低头的用锉锉和办法。,从康健保险向年金保险等倾斜飞行结果的换衣宗教信仰者。

不管到什么程度即若罕有的的,实则,医疗保险的同比升压速度并失去嗅迹处于停顿状态的EI,在17岁前期和18岁中期,仍有高升压速度的记载。,由此可见,医疗保险在付款后仍有辽阔的开展围绕。,这是鉴于75,20世纪80年头后的民众开端逐渐认识到保险。,许多开端自觉地认识到保险。,消除换得保险。这项做出计划的目的是勇敢的重病的危及。,以医疗保险和倚靠康健保险为提出。

相就康健保险的极度的增长,寿险升压速度略低,从16月初开端,它如同曾经进入了降落大道。。高音的出现然而“保险信保”的策略性换衣使遭受的。特殊是17年10月开端实行的著名的134号用锉锉,对年金险很多感光快的交还,上级的的货币利率和倚靠潜在风险的属性习俗,从此,年金保险作为一种倾斜飞行结果的引力。

三。相就前两种保险,遗产保险与容貌不测损伤保险的关系上地升压速度,但得奖是波动的。,这段工夫淬熄好几年了。,在监狱里,小余地的不测损伤保险也显示出更大的开展浮现。。

自食恶果不动产权预测

鉴于保险数据罕有的规整的一刻钟性,它也罕有的符合的先觉的工夫序列辨析和预测。。笔者将在自食恶果三年内为每项保险补充附加费支出。,月同比升压速度及各类insu洁治。

from fbprophet import Prophet
import warnings
warnings.filterwarnings(疏忽)

以下是自食恶果三年的额外费用支出预测

defprophet_image(df,periods,ax):
    df = df.reset_index()
    df.columns =[DS,''y'']
    m = Prophet()
    m.fit(df)
    future = m.make_future_dataframe(periods=periods, freq=''M'')
    forecast = m.predict(future)
    fig = m.plot(forecast,ax=ax)
fig, axes = plt.subplots(nrows=2, ncols=2,figsize=(14,8))

prophet_image(df_month.iloc[:,1],39,axes[0,0])
prophet_image(df_month.iloc[:,3],39,axes[0,1])
prophet_image(df_month.iloc[:,4],39,axes[1,0])
prophet_image(df_month.iloc[:,5],39,axes[1,1])for i inrange(0,2):for j inrange(0,2):
        axes[i,j].set_ylabel("单位: 亿元")
        axes[i,j].axvline(x=''2018-09-01'',ls="--",color="y", lw=1)

axes[0,0].set_xlabel(自食恶果三年遗产额外费用预测)
axes[0,1].set_xlabel(自食恶果三年寿险附加费预测)
axes[1,0].set_xlabel(自食恶果三年的医疗保险附加费预测)
axes[1,1].set_xlabel(自食恶果三年容貌不测损伤额外费用预测)

在在这里插入图片描述
从四种保险的附加费支出预测图可以看出

1。各类保险的附加费支出仍能稳步增长。,这象征,全部的属性增长的基石依然在。,属性开展前景辽阔。。

2。笔者也可以从山坡上音符。,寿险附加费预测的斜率分明少于THA,沉思象征,人寿保险费(年金保险)受余地和P的假装。,开展舒适。

3.每个图中虚线边界的蓝色散步教派指明着此点对应日期所预测数值的团圆见识。遗产保险和不测损伤保险几乎没符号。,后果象征,这两类保险过来的经纪数据有,因而预测是罕有的团圆的。。人寿保险费和康健保险受策略的假装很大。,过来的数据匀称差,从此预测值的团圆性较高。。

期末考试,让笔者看一眼总附加费手续费的浮现预测。

fig, axes = plt.subplots(nrows=2, ncols=2,figsize=(16,8))

prophet_image(df_month.iloc[:,1]/df_month.iloc[:,0],39,axes[0,0])
prophet_image(df_month.iloc[:,3]/df_month.iloc[:,0],39,axes[0,1])
prophet_image(df_month.iloc[:,4]/df_month.iloc[:,0],39,axes[1,0])
prophet_image(df_month.iloc[:,5]/df_month.iloc[:,0],39,axes[1,1])for i inrange(0,2):for j inrange(0,2):
        axes[i,j].横轴线.set_major_formatter(FuncFormatter(to_percent))
        axes[i,j].set_ylabel("占比 %")
        axes[i,j].axhline(y=0,ls="--",color="black", lw=1)
        axes[i,j].axvline(x=''2018-09-01'',ls="--",color="y", lw=1)

在在这里插入图片描述
从各典型insu洁治预测图可以看出,遗产和人寿保险费的共用将逐渐减少。,医疗保险和不测损伤保险的共用将逐渐扩张物。这也阐明了自食恶果推销开展的焦点和定位。

六、数据辨析总结

鉴于对《公共代替动词说明书》中在下方签署并承担责备根本数据的辨析,笔者可以了解。,

率先,保险进出数额巨万。,未损坏的附加费支出最意志经过,在全部的倾斜飞行体系中被蔑视的角色和位置。

就详述典型的保险,遗产保险推销的全套服装波动性和孤独性,开展良好。在人寿保险费推销,过来和可预示:预言某事的自食恶果,人寿保险费(年金)推销依然是每种保险的要件。,巨万最大限度的,增加时常。但受胎策略性维持,国有的保险观念的觉醒状态,康健险和容貌不测险曾经开端踌躇不前,它们将相称自食恶果新生的增长点。

Published by admin

发表评论

电子邮件地址不会被公开。 必填项已用*标注