金牌会员
 
- 积分
- 1028
- 金钱
- 1028
- 注册时间
- 2019-5-27
- 在线时间
- 142 小时
|
一张图片在计算机中的表示方法
一张图片在计算机中被表示为三维数组的形式,例如300*100*3(300是图片的长,100是图片的宽,3是红绿蓝三种颜色),图片是由无数个像素点组成的,其中颜色的深浅是有特定的像素点的(像素点的范围是0~255,像素点越大亮度越大)
视觉识别中常见的难题
如果用计算机识别一个物体比如说人的时候,有好多的难点,比如角度问题(正视时计算机可以识别是人,但俯视的时候怎么识别)、光照强度(在有光的时候可以识别人,但光线暗的时候呢,比如黑人在晚上冲你笑这种情况)、形状问题(站着的时候可以识别,那蹲着呢,尤其是猫这种液体生物)、部分遮蔽(比如你只露半张脸。。。)、背景混入(比如白猫在白色地毯上该如何识别)。
针对这些问题,咱们的常规套路就是:1、收集数据并给定标签;2、训练一个分类器;3、测试评估。
基于大数据的基础,这样的问题基本可以解决。
什么是K-近邻算法?
这好像是最简单的一个算法,这种算法非常传统,但是不能应用在视觉识别上面(因为它无法解决上面的那些难题)。这个具体的应用是在https://www.bilibili.com/video/av44365340?p=3中。
什么是CIFAR-10数据集?
这个数据集有10类标签,50000个训练数据,10000个测试数据,每个图片都是32*32。这个具体的应用也是在https://www.bilibili.com/video/av44365340?p=3中。
模型建立中数据集的分类
咱们确定一个模型比如确定人的模型,那么我们需要很多人的数据集(也就是照片),先分成两个部分:测试集和训练集(其中训练集就是让你练手的,你需要用训练集确定出你的模型,再用测试集验证,如果你建的模型可以把测试集中的人全部识别出来,才算成功),训练集中要分出一部分作为验证集(相当于做一次演练,要做好多次的演练,所以验证集可以换)。
|
|