研究文章|开放访问
江峰An,Duncheng Peng,Xuejie Zhou,Jun Wu,Penghua Zheng, "使用Python具有不完整数据的户外聚碳酸酯的使用寿命研究“,工程建模与仿真, 卷。2020, 文章ID.8909747, 14. 页面, 2020. https://doi.org/10.1155/2020/8909747
使用Python具有不完整数据的户外聚碳酸酯的使用寿命研究
摘要
聚碳酸酯(PC)的劣化取决于各种环境因素。同时,相关耐候过程的复杂性抑制了基于环境因素的使用寿命的预测。为了阐明PC风化和环境因素之间的非线性相关性,在中国的八个实验站进行了三年的自然风化试验。通过在Python中实现的额外树木和多层Perceptron网络分析了PC和环境和污染物数据之间拉伸性数据之间的关系。结果表明(1)PC拉伸性能的降解主要受实验期(76.37%)的影响,而环境或污染物因子对降解的影响不太明显(23.63%);(2)训练套装培训模型的分类准确性为91%(91/100),测试集是72.13%(44/61);最后,(3)从分类结果的误差分析推断出琼海和武汉聚碳酸酯的性能变化,其特征在于初步减少,然后略有改善。最后,我们表明所提出的方法表现良好,特别是在具有不完整数据的区域的情况下。
1.介绍
由于其优异的机械性能和低比重,聚碳酸酯(PC)是一种广泛使用的工程塑料。然而,PC材料的恶化是不可避免的,主要取决于其应用中的环境因素,例如太阳辐射,温度,水暴露和大气污染[1- - - - - -4].除物理化学性质外,聚碳酸酯的风化是多种环境因素共同作用的结果。这些环境因素之间的相互影响是如此复杂,以至于PC产品在许多不同环境中的使用寿命预测是极具挑战性的。休姆和库珀[5结论,聚合物使用寿命预测的困难如下:(1)聚合物是时间,温度,环境和依赖性;(2)它们失败的聚合物的各种性质的极限通常是未知的;(3)服务条件通常不同,通常包括故障情况;(4)对于复杂的应用程序,不可能完全复制加速测试中的服务条件。然而,当有关时间,温度,环境因子和机械性能的信息,可以在大规模上收集和分析,可以减轻上述挑战。
近年来,人工智能(AI)发展迅速。因此,支持各种人工智能任务的软件不断出现。然而,只有少数人使用该软件应用最新的机器学习方法来研究材料的风化机制。有关新算法的信息有限,以及缺乏使用它们所需的技能可能是其中一个原因。然而,通过附加的基本工具,可以通过Python部署最先进的人工智能算法,这是一种适合科学和工程应用的高级语言。使用Python可以快速灵活地开发AI应用程序,可以通过附加扩展进一步增强[6].此外,Python编程语言已成为科学计算领域最流行的语言之一[7].由于其高级别的互动性质及其科学图书馆成熟的生态系统,Python是算法开发和探索数据分析的吸引人选择[8,9].Python易于学习和应用。因此,在本研究中,我们使用了两种常用的机器学习方法(外树和多层感知器网络)来分析PC材料的各种环境因素和力学性能。
事实上,使用python或其他工具将机器学习方法集成到科学应用中已经引起了人们的注意。Ong等人[10.]开发了Python材料基因组学(pymatgen)库,这是一个健壮的、用于材料分析的开源Python库。然而,将Python作为研究风化机制的主要手段的研究还很少。同样,在机器学习的帮助下,我们可以在大数据集中找到隐藏的连接。
风化机制的研究一直是一个重要而有价值的研究课题。许多研究人员已经通过各种基于实验室的方法在宏观和微观水平上研究了风化机制[11.- - - - - -14.].然而,为了提高实际应用中的材料保护,有必要研究户外材料的耐候机制。刘等。[15.]开发了基于人工神经网络(ANN)的PC室外天气寿命预测系统。
本研究在中国8个暴露站进行了为期3年的PC自然风化试验。在对风化混凝土的抗拉强度和断裂伸长率进行分析后,我们在大规模数据分析过程中统计了所有环境因素的频率分布值,以确定最具影响的因素。因此,我们采用外树算法分离最重要的因子,以减少不相关因子的干扰。最后,根据所观察到的特征环境参数、拉伸性能变化参数与使用寿命之间的关系,构建多层感知器神经网络。我们在模型中引入了一个指导作用来研究风化机制。该方法主要有两个优点:一方面,即使原始数据没有统一的尺度,不完整,也能最大限度地从采集的数据中提取信息。另一方面,应用的方法可以在大规模数据分析的基础上识别宏观规律。
2.材料和方法
2.1.材料与样品制备
购买了原料PC材料(K1300,Teijin Limited)。标准哑铃拉伸样品(长度为150毫米, 在UA120A注塑机上(中国伊豆)注射成型。注射温度为190℃,模具温度为40℃,注射压力为700 bar,包装压力为150 bar,保压时间为10 s。
2.2.户外风化实验
根据ISO 877标准,曝光试验在中国的八个自然暴露站进行。该车站暴露于不同的气候类型。八个站位于武汉(亚热带区,潮湿的城市气候型),拉萨(LS,温暖的温带区,高原农村气候型),WANNINGE(WN,Torrid区,海洋气候型),敦煌(DH,温暖温带区,干燥炎热沙漠气候型),沉阳(SY,温带温带,潮湿的城市气候型),江津(JJ,亚热带,郊区酸雨气候型),广州(GZ,亚热带,湿润城市气候型)和青岛(QD,温带区,海洋气候型)(图1).主要环境因子的月平均值,如月平均值、高温、低温(T);月平均、高、低相对湿度(RH);降雨持续时间(RD);降水(P);日照时间(年代);太阳总辐射(G);红外辐射(IR);紫外辐射(UV);二氧化硫(SD); hydrogen chloride (HC); nitrogen dioxide (ND); hydrogen sulfide (HS); sulfate ion rate (SR); ammonia (A); sea salts (SS); pH; sulfate ion (SI); chloride (Cl); and dust fall (DF)—of the exposure sites are supplied in the Supplementary materials (available这里).环境参数数据由国家材料环境腐蚀平台采集和计算。在3年的室外风化过程中,PC试件两端固定在铝合金框架上,并从水平位置倾斜45°,直接向南裸露,不加支撑。
2.3.表征方法
哑铃试样根据ISO 527.2标准进行拉伸试验,使用通用材料机(CMT 6503, MTS系统公司),拉伸速率为20mm /min。
2.4.数据源
所有的环境因素数据都是从网站上收集的http://data.ecorr.org它是为公共研究而建的。原始数据记录在excel表格中,如tables所示1和2.我们关注五个环境因素被充分记录的领域。我们将参考这些地区以及数据积累的地区(广州、青岛、沈阳、万宁、武汉)。其余三个区域将被称为不完整数据区域(敦煌、江津和拉萨)。
|
|
本实验使用的数据记录在不同的时间间隔:2005 - 2012年和2014年在青岛和万宁,2006 - 2014年在沈阳和武汉,2005 - 2014年在广州,以及2012 - 2014年在敦煌、江津和拉萨。实验的主要部分是数据的采集和预处理,如图所示1.
2.5。在Python中实现的数据分析
2.5.1。使用额外的树木选择
为了减少后续数学模型的误差,有必要确定影响混凝土室外风化过程的最重要因素。因此,我们结合外树算法进行属性选择sklearn图书馆。
植树算法是从随机决策树开发的,这是一种经典机器学习方法。传统的决策树根据它们的特性是否适合单个分支的过滤条件,将所有物体分成不同的分支。传统决策树的基本过程以算法显示1.
|
Geurts等人[16.[通过添加以下过程开发了额外的树木算法,这极大地增加了决策树的随机性。
|
回归问题[16.),我们有 在哪里指输出的方差在样本集中 , 和请分别参见节点的右侧和左分支。
|
此外,Pierre Geurts证明了外树学习算法可以提供接近最优的精度和良好的计算复杂度,特别是在分类问题上。
选择最优决策属性的准则是样本分类成功的关键。同样,如果将某一属性作为决定性属性可以显著提高分类精度,则该属性对于描述样品的风化机制具有重要意义。因此,选择最优和决定性的属性有多种方法。
Geurts等人[17.已经描述了随机树在森林中的不同重要性。他们证明,由完全随机化树和额外树计算的平均减少杂质(MDI)重要性显示出评估变量相关性的理想性质:当且仅当变量不相关且仅依赖于相关变量时,它等于零。
我们利用这种方法来找到重要的因素,这些因素可以比其他因素更有贡献。
2.5.2。基于多层感知器网络的天气寿命预测模型
随着近年来人工智能的发展,人工神经网络在各行各业的数据处理中得到了广泛的应用。越来越多的计算机软件包方便了人工神经网络的使用、实现和应用。例如,只有通过导入几个参数才能在Python中实现相应的模型,这在当前的工作中使用。
Multidayer Perceptron网络的结构和基本原理 - 作为第一个Ann模型之一 - 已经由许多研究人员描述了[18.].因此,多层感知器网络如图所示2是用Python实现的。
除了它的基本用途,sklearn库提供了可供选择的激活函数和求解算法(权重优化求解器),在各种情况下工作。例如,“lbfgs”是准牛顿方法家族中的一个优化器;“sgd”为随机梯度下降;adam为Kingma和Ba提出的基于随机梯度的优化器[19.].此外,在Python的帮助文档中,默认求解器“adam”在训练时间和验证得分方面都适用于相对大的数据集(数千个培训样本或更多)。然而,对于小型数据集,“LFBGS”可以更快地收敛并更好地进行。因此,我们在这项工作中选择了“LFBGS”求解器。
结果
3.1。数据概述和表征
作为表格1和2显示,共记录因子28个,其中气候因子16个,污染因子12个。根据现有数据的质量和风化机理模型的聚合物材料,7因素(气压、风速和风向,太阳辐射的天使,pH值,硫酸浓度的离子和氯离子在雨中)没有用于这项工作由于高水平的噪音数据与这些因素有关。
有些数据由于实验无法控制的原因没有记录。因此,可以从完整的数据集中得出更准确的结论。因此,需要一种对少量缺失值具有鲁棒性的方法。
首先,构建频率分布图(图3.和4)为整个数据集,即为每个因素,以便数据可以直观地呈现。绘制各环境因子的频率分布图,观察不同因子在各区域的分布情况,确定是否可以用中值适当地表征和模拟实际环境。研究单个关键因素对性能数据的影响也有相似之处。计算时,将每个因子的最大值和最小值统一划分为15个区间,根据不同区间落数据量,确定该因子总数据的频率。
基于频率分布图,大多数因素的数据以特定的间隔集中在该区域上。温度和相对湿度相比,由于这两个气候因素与季节周期性变化相比,噪音相对较此。然而,曲线波动之间存在明显的差异,这表明这种噪音不会影响不同区域的环境之间的区别。因此,选择每个因素的中值值以基于区域表征它们,如表所示3.和4.
|
|
3.2。因素的重要性
extraitreesclassifier包包sklearnPython 3.6的库提供了一种方便的方法来确定每个因素的重要性,如表所示5和6.使用该算法时,我们设定了环境因素 - 包括污染物因子和实验时间段 - 作为原因,并将材料的伸长率作为结果。随后,重复ukaIsclassifer操作100次。100个结果的平均值和方差用于确定每个因素具有统计学意义的重要性。
|
|
表5和6认为实验周期是最重要的因素,其重要性为0.7637,比其他因素大一到两个数量级。因此,实验时间对PC材料拉伸性能退化的影响最为显著(76.37%)。这与大多数实验室的发现一致。此外,其余约25%的重要性可归因于环境因素。这些关系如图所示5.
基于现有研究,高温会影响聚合物材料的机械性能。因此,选择具有大于每月最高温度的重要性参数的因素,用于下一步。桌子7显示部分缺失数据地区的选定因子数据。最终,这些数据与在这些区域测试的材料的力学性能相结合。
|
3.3.培训和测试
对于训练数据集,为了预测PC材料的户外使用寿命,我们将实验期间作为输出,并设置14个因素(表中的11个环境因素)7和3.机械性能:抗拉强度,屈服强度和断裂伸长率)作为输入。为了获得最佳性能,已经探讨了合理限制的每个组合(特别是隐藏层结构和激活功能)。数字6显示结果。数字6(a)是身份激活功能;最佳的隐藏层结构是27-38,实现的准确度为62.30%。数字6(b)为logistic激活函数;最佳隐层结构为12-23,实现精度为70.49%。数字6(c)是Relu激活功能;最佳的隐藏层结构为15-16,实现的准确性为72.13%。数字6(d)是Tanh激活功能;最好的隐藏层结构是10-31,实现的准确度为70.49%。
(一)
(b)
(c)
(d)
过度装备是机器学习模型中的常见问题。因此,训练数据集所达到的准确性不能是模型性能的参考标准。数字6给出了四种激活函数对几种隐层结构的准确性,表明其准确性能够可靠地衡量模型的性能。由图可知,最优组合为“relu”激活函数。
结合“relu”激活函数的两层隐层神经网络分类准确率最高,在训练集上为91%,在测试集上为72.13%。
4.讨论
由100个输入特征训练的模型对训练数据的识别率为91%(91/100),对测试数据的识别率为72.13%(44/61)。此外,还可以从识别的细节中提取额外的信息。表8和9分别显示各井资料累积区和不完整区分类精度。表10.和11.分别展示了井资料积累区和不完整区各实验时段的分类精度。
|
|
|
|
就培训数据的认可而言,青岛和沉阳(40个观察)的观察总是准确分类,而瓦宁和武汉则观察到单一虚假识别(8/9)(表8).单一的虚假识别因12个月和36个月之间的混淆而导致了12个月和24个月之间的识别,包括不完整的数据区域(表11.).因此,可以推断,聚碳酸酯的户外机械降解的特征是初始恶化,然后轻微改善(如图所示)7)假设三个不同实验时段的数据收集期间产生的系统错误是相同的。
暴露于环境的样品之间的机械性能造成显着恶化12个月和24个月。因此,其中没有观察到虚假识别。几乎所有错误分类(25/26)都与36个月的样本有关。因此,可能在暴露12个月和24个月的样品中暴露36个月暴露36个月的样品的机械性能。因此,难以准确地对暴露36个月暴露的样品进行分类。暴露36个月的样品的错误分类频率为12个月或暴露24个月的样品,依赖于暴露36个月的样品的机械性能是否接近暴露12个月或以12个月的样品的机械性能样品暴露24个月。从图中所示的每个样本获得的统计数据7支持这些调查结果。
考虑到图中所示的结果8在图中,黑线比红线更容易与蓝线重合。而且,黑线与蓝线相交的比例为73%。73%的交点也将三条线分为两部分:在交点右侧,三条线表现出相同的趋势,在100%时达到最大值;在交点的左侧,红线与其他两条线不同,呈现出半圆形的峰值。这说明暴露3年的试样(3年试样)断裂伸长值分布与1年试样相似。然而,由于材料的风化和力学性能的退化,三年试样的断裂伸长率值会部分左移。因此,三年试样断裂前延伸率达到73%以上的比例较高,73%以下的比例较低。同样,两年样本的值分布相同,且左移显著且集中,特别是在73%以下的部分。Jiang et al. [20.研究了双酚A聚碳酸酯的风化机理。他们的结果支持了我们的发现。Jiang等人指出,这种现象是一种风化诱导的韧性-脆性-韧性转变,部分原因是氧化诱导的链断裂和链交联之间的竞争。由此推断,我们的聚碳酸酯样品也表现出相同的风化机制。
桌子9表明,不完全数据区域的实验区的分类精度小于井数据累积区域的实验区的准确性18.87%。有三种可能的原因:(1)由于在不完整数据区域中可用的数据量较小,中值表征的性能不佳。数据量越少,错误越明显(2)从统计上看,资料不完整区某些因素的数据范围远远超出了井资料积累区。因此,识别测试数据的难度超出了有限的训练数据所训练的模型的能力(3)从根本上讲,不同的区域环境特征导致了训练数据区与测试数据区聚碳酸酯性能退化的本质差异
5。结论
据证明,通过使用Python的综合工具,可以方便地分析与最先进的数学方法的数据。影响额外树木算法鉴定的破损伸长率的重要气候因子和污染因素具有高稳定性和解释性。此外,重要参数引导了在随后的过程中更合理地使用数据,提高了多层Perceptron模型的性能。如果有限制数量的数据,则通过具有高计算性能的所有可能组合的循环是找到机器学习模型的最佳超参数的可靠方式。通过该方法获得的模型可以识别具有相对高精度的实验期。这为大气环境中的瓦斯碳酸氢盐研究以及适当的保护措施提供了重要的参考价值。
根据误差分析,从宏观角度来看,聚碳酸酯的室外力学性能先变差后略有上升。这说明聚碳酸酯在室外的风化过程是一个延性—脆性—延性的转变过程。
在具有井数据累积区域中的样本中,可以在不完整的数据区域中预测样本的风化周期是可行的,尽管具有适度的错误。此外,预测从井数据累积区域获得的数据的某些样本的使用寿命更准确。
数据可用性
再现这些发现所需的材料力学性能的原始数据目前不能共享,因为这些数据也是正在进行的研究的一部分。环境数据可在中国腐蚀与保护通道(http://data.ecorr.org/),其中一部分载于附件。
利益冲突
作者声明本文的发表不存在利益冲突。
致谢
感谢国家自然科学基金项目(No. 51133009)的资助。我们也感谢中国科学院化学研究所杨明舒团队在样品制备方面的帮助。
补充材料
在data.xlsx文件中,表名place-1表示该地方的气象因素数据。表名place-2表示该地区的污染因子数据。在文件的所有表格中,广州、青岛、沈阳和武汉都是数据积累区域。其余三个区域将被称为不完整数据区域(敦煌、江津和拉萨)。本实验使用的数据记录在不同的时间间隔:2005 - 2012年和2014年在青岛;2006 - 2014年在沈阳和武汉;2005年至2014年在广州;2012年至2014年在敦煌、江津和拉萨。文件中的所有表格都包含了环境因素的月数据,包括温度(月最高、最低、平均)、相对湿度(月最高、最低、平均)、气压(月最高、最低、平均)、红外辐射、紫外线辐射、太阳总辐射、日照时数、降雨量、降雨持续时间; monthly data of the pollutant factors, such as the concentration of sulfur dioxide and hydrogen chloride determined using the instantaneous method; the concentration of nitrogen dioxide, hydrogen sulfide, ammonia, sea salts, and sulfation rate determined using the continuous method; the pH, concentration of sulfate ions, and chloride ions in the rain; and the water-soluble and non-water-soluble dust fall quantity in the year.(补充材料)
参考
- A.因子和M. L. Chu,“在双酚 - 一种聚碳酸酯的光老化中的氧气中的氧气,”聚合物降解与稳定性,卷。2,不。3,pp。203-223,1980。视图:出版商网站|谷歌学者
- R. J. Gardner和J. R. Martin,“塑料潮湿的老化:分子量对聚碳酸酯的机械性能和断裂形态的影响,”应用聚合物科学学报,卷。24,不。5,pp。1269-1280,1979。视图:出版商网站|谷歌学者
- M. Diepens和P.Gijsman,“户外和加速的双酚避风研究是聚碳酸酯”聚合物降解与稳定性,卷。96,没有。4,pp。649-652,2011。视图:出版商网站|谷歌学者
- M. Diepens和P. Gijsman,“双酚A聚碳酸酯的光降解”,聚合物降解与稳定性,卷。92,没有。3,pp。397-406,2007。视图:出版商网站|谷歌学者
- A. Hulme和J. Cooper,《工业用聚合物寿命预测》,密封技术,卷。2012年,没有。9,pp。8-12,2012。视图:出版商网站|谷歌学者
- T. O. Oliphant,“Python用于科学计算”科学与工程计算,第9卷,第5期。3,pp。10-20,2007。视图:出版商网站|谷歌学者
- A. Swami和R. Jain,《Scikit-learn: Python中的机器学习》,机床学习研究,卷。12,不。10,pp。2825-2830,2012。视图:谷歌学者
- K. J. Millman和M. Aivazis,“蟒蛇为科学家和工程师”科学与工程计算,第13卷,第2期2,页9-12,2011。视图:出版商网站|谷歌学者
- P. F. Dubois,“客座编辑的介绍:Python:包括电池,”科学与工程计算,第9卷,第5期。3,页7-9,2007。视图:出版商网站|谷歌学者
- S. P. Ong,W. D. Richards,A.Jain等,“Python Materials Genomics(Pymatgen):一种用于材料分析的强大的开源Python库,”计算材料科学, vol. 68, pp. 314-319, 2013。视图:出版商网站|谷歌学者
- J. M. Hutchinson, S. Smith, B. Horne,和G. M. Gourlay,“聚碳酸酯的物理老化:焓松弛、蠕变反应和屈服行为”,大分子,第32卷,第2期15,页5046-5061,1999。视图:出版商网站|谷歌学者
- J. Bartos, J. Müller,和J. H. Wendorff,“各向同性和各向异性聚碳酸酯的物理老化”,聚合物,卷。31,不。9,PP。1678-1684,1990。视图:出版商网站|谷歌学者
- T. Ricco和T.L.Smith,“对有限拉伸菌株的聚碳酸酯薄膜的复兴和物理老化,”聚合物,卷。26,不。13,PP。1979-1984,1985。视图:出版商网站|谷歌学者
- A. BLAGA和R. S. Yamasaki,“聚碳酸盐板造型诱导的表面微裂纹”材料科学杂志,第11卷,第5期。8,第1513-1520页,1976。视图:出版商网站|谷歌学者
- H刘,M. Zhou,Y.周等,“Ann构建的聚合物老化寿命预测系统。1.聚碳酸酯的寿命预测,“聚合物降解与稳定性,第105卷,218-236页,2014。视图:出版商网站|谷歌学者
- P. Geurts,D. Ernst和L. Wehenkel,“非常随机树木”,机器学习,第63卷,第2期1,第3-42页,2006。视图:出版商网站|谷歌学者
- G. Louppe, L. Wehenkel, A. Sutera,和P. Geurts,“理解随机树森林中的变量重要性”,神经信息处理系统研究进展, vol. 2013, pp. 431-439, 2013。视图:谷歌学者
- 张志军,“人工神经网络在聚合物复合材料中的应用:综述”,复合材料科学和技术,第63卷,第2期14,第2029-2044页,2003。视图:出版商网站|谷歌学者
- D. P. Kingma和J. Ba,“Adam:一种随机优化方法”,计算机科学, 2014年第1412.6980条。视图:谷歌学者
- L.江,M.周,Y.丁,Y。Zhou和Y. Dan,“老龄化诱导的双酚诱导韧性 - 脆性 - 韧性转变在双酚中的聚碳酸酯”高分子研究杂志,卷。25,不。2,p。39,2018。视图:出版商网站|谷歌学者
版权
版权所有©2020江峰等。这是一篇发布在创意公共归因许可证,允许在任何媒介上不受限制地使用、传播和复制,但必须正确引用原作。