乐收生意宝讯：大数据“轶事”：数据不够用，“伪”数据来凑数_乐收生意宝资讯_资讯频道

乐收生意宝讯：大数据“轶事”：数据不够用，“伪”数据来凑数

2019-07-22 来源：中国起重机械网人气: 856

乐收生意宝令人称奇的大神级AI，都曾经历过无数次训练，AI训练的核心是数据，尽管数据驱动并不是AI算法训练的唯一方式，但不能否认的是，相对来说，拥有海量数据的领域，是AI滋生的更好温床。

举一个简单的例子，与其他多个小语种翻译比起来，英汉翻译器的翻译能力往往会更强，就是因为英汉互译的使用频率远远高于其他各语种的互译。同理，人脸识别技术应用率远高于虹膜识别，因为人脸数据更方便收集。

数据匮乏或是采集成本高，是阻碍AI发展的一个重要原因。面对这种情况，数据增强技术应运而生。

所谓数据增强技术，就像是数据的繁殖皿，可以让数据进行“有丝分裂”，增强样本扩大数据集。

就拿图像数据来说，当图像数据不足时，可以对原图像做一些改动，例如裁剪、旋转、镜像反转、轻微的扭曲、增加噪点、增加遮挡物等等。也许对人类来说，被改动过的图像很容易被识别，看出与原图的差异。但对于AI来说，即使几个像素点的变动，也是一个全新的数据样本。

而应用于文本数据，则有互译和词向量替换两种方法。通过机器翻译，将一句话从中文翻译成英文，再由英文翻译成中文，就可以实现语序、同义词等等的调整替换，得到语料乘二的效果。以及通过自然语言生成技术，将一句话中的不同对象进行划分并替换生成新的句子，就像同义词、近义词替换。

令人惊喜的是，这些数据增强技术也开始通过深度学习的加持逐渐提升效率。

去年4月，谷歌的AutoAugment技术，设计了一个自动搜索空间，利用搜索算法来确定适合数据集的图像增强策略，制定执行的顺序并且自动执行。比如将一个动物或植物照片数据集输入给AutoAugment，AutoAugment通过计算会确定出先平移再剪裁是让AI对于数据“陌生感”最大化的解决方案，然后开始自动执行。是不是很精妙？
-----本文转自网络，如有侵权请联系我们及时删除处理。
乐收生意宝-是乐收网旗下精准、便捷的采购信息和供应信息发布平台，乐收生意宝用简单的理念，致力于为中国4000万中小企业和商业人士提供便捷的采供信息服务！
gg-1

文中内容、图片均来源于网络，如有版权问题请联系本站删除！

下一篇： 石家庄市轨道交通有限责任公司运营分公司20
上一篇： 南充市营(山)蓬(安)仪(陇)三县城镇废弃物集

首页 » 资讯频道 » 乐收生意宝资讯

推荐图文
猜你喜欢

相关资讯
热门资讯