CNTXJ.NET | 通信界-中国通信门户 | 通信圈 | 通信家 | 下载吧 | 说吧 | 人物 | 前瞻 | 智慧(区块链 | AI
 国际新闻 | 国内新闻 | 运营动态 | 市场动态 | 信息安全 | 通信电源 | 网络融合 | 通信测试 | 通信终端 | 通信政策
 专网通信 | 交换技术 | 视频通信 | 接入技术 | 无线通信 | 通信线缆 | 互联网络 | 数据通信 | 通信视界 | 通信前沿
 智能电网 | 虚拟现实 | 人工智能 | 自动化 | 光通信 | IT | 6G | 烽火 | FTTH | IPTV | NGN | 知本院 | 通信会展
您现在的位置: 通信界 >> 工业自动化 >> 技术正文
 
基于SVM的迁移学习方法在互联网金融网页分类中的应用
[ 通信界 | 谢林燕 刘纪伟 张 玉 张 峰 | www.cntxj.net | 2023/10/22 22:14:41 ]
 

谢林燕,刘纪伟,张 玉,张 峰

(国家计算机网络应急技术处理协调中心河北分中心,河北 石家庄 050021)

0 引言

互联网技术迅速发展,互联网金融作为一种新生的金融形式逐渐发展起来。互联网金融网页的业态识别是互联网金融监测预警与风险防范的核心基础。然而在实际中频繁出现新兴金融业态,相关网页数量较少,其中只有少量的网页经过人工标注。面对当前新兴互联网金融业态网页训练样本过少的情况,如何实现对互联网金融网页的高效业态判定成为关注热点。

网页分类主要立足于文本分类,机器学习是网页分类的一种常见方法,集中体现在网页的特征选取、数据的特征表达上。文献[1]提出了一种基于朴素贝叶斯协调分类器综合网页结构信息及内容文本的分类方法,通过组合分类器的方法,使分类性能得到了一定程度的提高。文献[2]主要采用卷积神经网络(Convolutional Neural Networks,CNN)进行文本分类,提出用于句子分类的单卷积层的卷积神经网络(Text CNN),利用多个大小不同的卷积核来并行地提取不同的 n-gram 信息,然后对其进行最大池化(Max Pooling)操作提取重要的特征,从而完成分类。文献[3]提出了循环卷积神经网络(Recurrent Convolutional Neural Network,RCNN)模型,有效解决了固定窗口的卷积操作使得每一个词向量的上下文受限的问题,实验证明该模型在文本分类中普遍优于单独的循环神经网络(Recurrent Neural Network,RNN)或CNN 模型。文献[4]设计了基于深度学习的高效网页分类算法框架,利用深度神经网络,搭建了一种多通道输入、复合特征抽取结构的分类模型,有效地提高了网页分类的准确率。

深度学习的优势主要依赖于其大数据的提取能力,在样本量足够的情况下,深度学习往往可以取得较好的效果。然而对于互联网金融网页来说,数据量不足会导致模型出现过拟合的问题。因此,针对小数据集的小样本学习技术是解决互联网金融网页分类问题的关键。文献[5]通过对传统支持向量机(Support Vector Machine,SVM)算法模型进行调整,引入新的参数控制模型超平面的位置,以缓解正负样本不平衡对分类准确率的影响。文献[6]提出基于主动学习的半监督支持向量机学习算法,以少量的有标记数据来训练初始学习器,通过主动学习策略来选择最佳训练样本,并通过删除非支持向量来降低学习代价,获得较好的学习效果。文献[7]提出了一种基于迁移学习与权重支持向量机的图像自动标注方法,解决了所选数据集规模较小,无法训练出最优的卷积神经网络的问题。文献[8]基于迁移学习算法对SVM 模型进行优化(Transferlearning-Support Vector Machine,TLSVM),通过使用目标域少量已标记数据和大量相关领域的旧数据来为目标域构建一个高质量的分类模型。

关于小样本学习,目前常用的有基于数据增强和基于迁移学习的方法。基于数据增强的方法,主要是利用辅助数据集或者辅助信息增强目标数据集中样本的特征,或者扩充目标数据集,使模型能够更好地提取特征[9]。基于迁移学习的方法,主要是运用已存有的知识对不同但相关的领域问题进行求解的一种新的机器学习方法。它放宽了传统机器学习中的两个基本假设,目的是迁移已有的知识来解决目标领域中仅有少量有标签样本数据甚至没有的学习问题[10]。

通过上述分析,为了准确、快速地对互联网金融网页业态进行识别,本文在迁移学习和数据增强方法的基础上,通过调整超平面位置改进SVM算法,实现对小数据集的训练与检测。实验结果表明,本文提出的基于超平面位置调优SVM 的迁移学习算法对于互联网金融网页业态识别具有较好的分类效果,能够有效检测出已知业态的金融网页,从而加强对各类金融网页的关注,强化风险防范,促进互联网金融发展。

1 TL-SVM

SVM 是Corinna Cortes 和Vapnik 等 人[11]于1995 年提出的,主要用来解决小样本、非线性及高维模式的识别。该方法是以统计学习理论(Statistical Learning Theory,SLT)[12]的VC 维理论和结构风险最小原理为基础建立起来的,其本身的优化目标并非经验风险最小,而是结构化风险最小,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳的折衷方案,以期获得最好的推广泛化能力[13]。

文献[8]提出的TL-SVM 算法的核心理论是:若两领域相关,则其各自分类器的ω值应相近,因此在SVM 目标式中增加迁移项μ||ωt-ωs||2。

式中:C为惩罚因子,代表算法对于分类错误样本的容忍程度;代表第i个样本的分类损失。

该算法在目标领域训练分类模型时引入了源领域知识ωs,在目标函数构建的过程中利用源领域和目标领域知识最接近的迁移学习项,实现有效迁移学习。然而,当源领域和目标领域相关性较小时,则会出现负迁移现象,即迁移过程完成后实现的分类效果差于仅利用目标领域已标记数据的监督分类效果。

2 基于超平面位置调优SVM 的迁移学习算法

2.1 数据增强

数据增强[14](Data Augmentation,DA)改善了深度学习中数据不足的场景,在不实质性地增加数据的情况下,让有限的数据产生等价于更多数据的价值。其原理是,通过对原始数据融入先验知识,加工出更多数据的表示,有助于模型判别数据中的统计噪声,减少模型过拟合。其主要的方向是增加训练数据的多样性,从而提高模型泛化能力。小样本学习的主要问题是样本量过少,从而导致样本多样性不足以刻画完整样本分布,可以通过样本增强来提升样本多样性。基于数据增强的方法是利用辅助数据集或者辅助信息对目标数据集进行数据扩充或特征增强,使模型能更好拟合。数据扩充可以是无标签或者合成带标签数据;特征增强是在原样本的特征空间中添加便于分类的特征,增加特征多样性,从而降低样本间的不均衡性,提高模型的泛化能力,使模型的鲁棒性更高。

在样本少、分布不均衡的情况下,可以通过数据增强[15]扩充训练数据的量,降低样本间的不均衡性,提高模型的泛化能力,使模型的鲁棒性更高。数据增强技术包括回译(Back Translation)、随机词替换、非核心词替换、基于上下文信息的数据增强和基于语言生成模型的数据增强5 种经典方案。其中,基于随机词替换的数据增强方法类似于图像增强技术中的随机裁剪、图像缩放,通常是随机地选择文本中一定比例的词,对其进行同义词替换、删除等简单操作。本文采用基于随机词替换的简单数据增强(Easy Data Augmentation,EDA)[15]文本增强方法实现数据增强,主要包含以下4 种操作:

(1)同义词替换(Synonym Replacement,SR):从句子中随机选择非停用词,用随机选择的同义词替换这些单词。

(2)随机插入(Random Insertion,RI):随机找出句子中某个不属于停用词集的词,并求出其随机的同义词,将该同义词插入句子的一个随机位置,重复n次。

(3)随机交换(Random Swap,RS):随机选择句子中两个单词并交换它们的位置,重复n次。

(4)随机删除(Random Deletion,RD):以概率p随机删除句子中某个单词。

2.2 基于超平面位置优化SVM 的迁移学习算法

由于标记样本数量不足,因此在模型训练过程中可提供的有效信息不均衡,同时,基于SVM 算法的分类,在样本数量少、无法准确预估负类样本存在空间的情况下,引入参数主动调整分类超平面的位置,使其靠近正类样本,为负类样本预留较大的存在空间,以此提高分类的准确率。基于超平面位置优化SVM 的迁移学习算法实现了领域间参数的迁移,原理如图1 所示,其优化目标函数的表达式为:

图1 基于超平面位置优化SVM 的迁移学习算法检测流程

式中:调整超平面的程度通过参数λ进行控制,若λ较大,则源领域和目标领域的分类超平面非常接近;若λ较小,则源领域和目标领域的分类超平面相对独立。

对于优化目标函数,列出如下说明:

(1)式(2)中前两项分别表示目标领域数据的结构风险项和经验风险项。

(2)||ωt-ωs||2表示目标领域与源领域的差异程度,数值越大表示分类器之间的差异越大,反之表示二者相似,μ为协调系数。

式中:α=(α1,α2,…,αn)T和β=(β1,β2,…,βn)T为拉格朗日系数。

依据KKT[16](Karush-Kuhn-Tucker)条件,对ωt,和bt求偏导数,推导如下:

将式(4)、式(5)代入式(3),化简后可得对偶问题形式如下:

2.3 基于超平面位置调优SVM 的迁移学习算法流程

(2)利用二次规划原理求得目标域拉格朗日系数αt=(α1,α2,…,αn)T;

(3)根据式(4)求得决策超平面法向量ωt;

(5)构建划分超平面ωtxt+bt=0,输出分类决策函数

综上,基于超平面位置优化SVM 的迁移学习算法检测流程如图1 所示。

3 实验与分析

为评价验证基于超平面位置调优SVM 的迁移学习算法在互联网金融网页业态分类中的效果,实验采用从互联网收集到的金融网页为评测数据集,该数据集包含451 个互联网金融网页,涉及4 个金融业态下的8 个金融子业态,表1 为金融业态与相关网页的数量。每两个金融业态分别作为正样本和负样本,基于子业态进行检测,学习任务的具体情况如表2 所示。在目标领域选取源领域训练集数量的20%作为目标领域的训练集,构成迁移学习任务。实验主要从非迁移、迁移和基于超平面位置调优SVM 的迁移3 个角度来进行,从而展现所提分类算法的优势。

表1 金融业态与相关网页数量

表2 学习任务具体情况

3.1 评价指标

本文采用正确率(Precision)、召回率(Recall)和综合指标F1-指数(F1)来评测互联网金融网页检测的性能。其中,正确率P表示返回结果中正确的比例,召回率R表示所有正确结果中返回的比例。在检测结果中,如表3 所示,假设检测到的互联网金融网页中,相关网页的数量为a,不相关网页的数量为b;在未检测到的互联网金融网页中,相关网页的数量为c,不相关网页的数量为d。

表3 评价指标

其中,测试数据中与金融业态相关的互联网金融网页数目为a+c,不相关的互联网金融网页数目为b+d。检测结果中,判定与金融业态相关的互联网金融网页数目为a+b,不相关的互联网金融网页数目为c+d。关于实验中的数据集,源领域和目标领域的样本均为已标记信息,但目标领域样本的标记信息仅用于评价各算法的分类性能。正确率P、召回率R和综合指标F1 的计算方法如下:

3.2 实验设计与结果分析

本文将各类业态互联网金融网页按照test_size=0.5,划分为训练集和测试集。同时,按照目标域训练样本总数20%的比例,选取目标域中的数据集作为目标域训练集,剩余为目标领域测试集,实现迁移学习。

本文实验中所有算法的最优参数均通过网格搜索的方式来确定。其中惩罚因子Ct,μ的选取参照文献[8]的设定策略,即因目标域参与训练的样本数量少,应尽量保证分类的正确性,因此Ct在(0.01,0.05,0.1,0.5,1,5,10,20,50)中选最 优;μ在(0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1)中选最优。

通过超平面位置调整参数λ,实现对超平面的最优位置的选定,从而实现对互联网金融网页业态识别的准确度。实验采用本文提出的基于超平面位置优化SVM 的迁移学习算法,通过调整λ的值,确定超平面位置对互联网金融网页业态分类的影响情况。由于本文主要针对小数据集的小样本学习,考虑到提高数据分类的正确率便于后续分类模型的优化,若λ较大,则源领域和目标领域的分类超平面非常接近,出现误报的概率增大;若λ较小,则源领域和目标领域的分类超平面相对独立,可有效保证分类的正确率。为保证超平面位置向正类样本靠近,为负类样本留出更大的存在可能性空间,λ的取值范围为(0,1)。

本文实验采用源领域与目标领域已标记样本合集作为SVM 的训练集进行训练,标记为SVM-ST,利用此方法与迁移学习方法做比较,同时,将本文提出的方法与文献[8]中提出的TL-SVM 方法做比较,用以说明本文所提方法的优越性。3 种方法在6 个学习任务中的分类性能比较如表4 所示。

表4 3 种方法性能比较

根据实验结果,得出以下结论:

(1)通过对比3 个实验的结果发现,迁移学习方法的引入对分类效果有明显提升,对比SVMST 分类方法,正确率提升较为明显,TL-SVM 算法较SVM-ST 算法的分类正确率提升了3.2%,F1 测试值提升了0.4%;基于超平面位置调优SVM 迁移算法较SVM-ST 算法的分类正确率提升了4.0%,F1 测试值提升了0.9%,说明迁移学习方法在相似领域的数据分类中,优势更明显。

(2)通过对比TL-SVM 算法和SVM-ST 算法的实验结果,发现对于源领域与目标领域关联性较低的数据集(网络借贷vs 网络银行),TL-SVM 的分类正确率反而降低了,说明TL-SVM 在处理数据负迁移方面有所欠缺。

(3)通过对比TL-SVM 和基于超平面位置调优SVM 迁移算法的实验结果,发现通过调整超平面位置,使其向正类样本靠近,保证了分类的正确率。基于超平面位置调优SVM 迁移算法较TL-SVM算法的分类正确率提升了0.8%,F1 测试值提升了0.5%,说明通过数据增强和分类超平面位置调整,在样本数量少、无法准确预估负类样本存在空间的情况下,分类超平面主动靠近正类样本,保证了分类的正确性。

4 结语

本文提出了基于超平面位置调优的SVM 迁移算法。该方法通过分类调整超平面位置,使其充分靠近正类样本,结合数据增强技术,实现对小数据集的训练与检测,对于数据量不足的互联网金融网页来说,有效解决了模型出现过拟合的问题。实验结果表明,基于超平面位置调优的SVM 迁移算法在小样本的情况下能够提高检测性能指标。

 

1作者:谢林燕 刘纪伟 张 玉 张 峰 来源:通信技术 编辑:顾北

 

声明:①凡本网注明“来源:通信界”的内容,版权均属于通信界,未经允许禁止转载、摘编,违者必究。经授权可转载,须保持转载文章、图像、音视频的完整性,并完整标注作者信息并注明“来源:通信界”。②凡本网注明“来源:XXX(非通信界)”的内容,均转载自其它媒体,转载目的在于传递更多行业信息,仅代表作者本人观点,与本网无关。本网对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。③如因内容涉及版权和其它问题,请自发布之日起30日内与本网联系,我们将在第一时间删除内容。 
热点动态
普通新闻 发展新质生产力 运营商突破口何在?
普通新闻 浙江移动在杭州率先完成“水陆空”全场景5G-A通感一体验证,助力发
普通新闻 TD产业联盟发布《全球5G/6G产业发展报告(2023-2024)》
普通新闻 诺基亚与中国电信携手展示5G TSN技术助力智慧制造应用
普通新闻 网端业协同,中国移动将于2026年底实现5G-A全量商用
普通新闻 工信部:今年将开展“人工智能+”行动
普通新闻 工信部等四部门发文,低空经济“万亿赛道”再迎政策利好
普通新闻 首发百城势恢宏,中国移动5G-A商用部署划重点
普通新闻 美光捐助西安 "助爱小餐 "公益项目,为残疾人创造就业机会
普通新闻 何飚出任中国移动总经理、党组副书记
普通新闻 共创智慧家庭新篇章|宇视受邀参加中国联通重点产品培训
普通新闻 中国电信计划2024年资本开支960亿元 云和算力约占180亿元
普通新闻 中国电信完成全球首个全频段、全制式、全场景5G RedCap商用验证 启
普通新闻 我国家电行业发展开始进入新阶段 亟需加快数智化转型
普通新闻 通信界观察:何小鹏收复失地,小鹏汽车走出沼泽
普通新闻 美国企业对特定光纤连接器、适配器、跨接电缆、跳线以及下游产品及
普通新闻 50G PON已日趋成熟 预计2024年将走向商用
普通新闻 360AI浏览器APP即将上线,支持500万字长文本处理
普通新闻 美媒:美司法部起诉苹果避重就轻,为何不直指应用商店问题
普通新闻 人工智能如何为新质生产力注入新动力
通信视界
高通CEO安蒙:生成式AI走向终端,将带来最大智
普通对话 高通CEO安蒙:生成式AI走向终端,将带来最大
普通对话 李彦宏:不断地重复开发基础大模型是对社会
普通对话 中兴通讯徐子阳:强基慧智,共建数智热带雨
普通对话 邬贺铨:移动通信开启5G-A新周期,云网融合
普通对话 华为轮值董事长胡厚崑:我们正努力将5G-A带
普通对话 高通中国区董事长孟樸:5G与AI结合,助力提
普通对话 雷军发布小米年度演讲:坚持做高端,拥抱大
普通对话 闻库:算网融合正值挑战与机遇并存的关键阶
普通对话 工信部副部长张云明:我国算力总规模已居世
普通对话 邬贺铨:我国互联网平台企业发展的新一轮机
通信前瞻
亨通光电实践数字化工厂,“5G+光纤”助力新一
普通对话 亨通光电实践数字化工厂,“5G+光纤”助力新
普通对话 中科院钱德沛:计算与网络基础设施的全面部
普通对话 工信部赵志国:我国算力总规模居全球第二 保
普通对话 邬贺铨院士解读ChatGPT等数字技术热点
普通对话 我国北方海区运用北斗三号短报文通信服务开
普通对话 华为云Stack智能进化,三大举措赋能政企深度
普通对话 孟晚舟:“三大聚力”迎接数字化、智能化、
普通对话 物联网设备在智能工作场所技术中的作用
普通对话 软银研发出以无人机探测灾害被埋者手机信号
普通对话 AI材料可自我学习并形成“肌肉记忆”
普通对话 北斗三号卫星低能离子能谱仪载荷研制成功
普通对话 为什么Wi-Fi6将成为未来物联网的关键?
普通对话 马斯克出现在推特总部 收购应该没有悬念了
普通对话 台积电澄清:未强迫员工休假或有任何无薪假
普通对话 新一代载人运载火箭发动机研制获重大突破
推荐阅读
Copyright @ Cntxj.Net All Right Reserved 通信界 版权所有
未经书面许可,禁止转载、摘编、复制、镜像