第12章 手搓录取通知书1(3/3)

  【学霸的算力系统】小说免费阅读,请收藏 全本免费小说【qbmfxs.com】,如果无法弹起阅读主题设置栏,请闭关器浏览告广蔽屏能功即可。

  首先,哪怕是同一张通知书,不同的人在不同的时候用不同的手机摄像头,都会拍出不同的色号来。

  其次,想从图片里面还原出通知书实际的尺寸,也是要费一点功夫的。

  林远随后打开了pycharm,他准备用Python祭起爬虫脚本。

  学好数理化,走遍天下都不怕。

  你看,这个时候就用到了。

  为了解决色号的问题,林远打算用爬虫脚本来大批量爬取网上的紫金航校研究生录取通知书图片。然后综合汇总之后做个筛选,再取个平均值。

  筛选是必须的。因为这年头拍照用美颜太普遍了,鬼知道会把实物的色号改的如何面目全非。

  至于什么是“色号”。顾名思义:就是标识每一种色彩的编号,相当于颜色的身份证。

  由于计算机世界的一切数据都是数字,那颜色自然也就不例外。最常见的颜色定义格式就是RGB三基色,R(red)、G(green)、B(blue)红绿蓝三基色可以调制出各种不同颜色。

  当然,除此之外还有CMYK、HSB等等。但在计算机世界中,还是RGB格式使用更广。

  这个级别的爬虫并不难写。林远只需要爬取某度搜索引擎的搜索结果,然后从中摘取出图片,再通过OCR字符识别过滤一遍,把带有紫金航校研究生录取通知书字样的图片挑选出来。

  接着来一个目标识别--将图片中的录取通知书所在区域抠图抠出来。然后再做一份数字图像直方图,就是把录取通知书图片中每种色号做个统计。

  接下去再对统计结果做一个排布。就好比跳水比赛的打分,去掉最高分和最低分,取个中间值即可。

  这种方式相对简单,其实就是筛选出中间值。

  但是这个过程还是涉及了一些计算机和数字图像处理方面的内容,好在如今这个年代得益于摩尔定律的强大推动,计算性能的天花板被一再突破,计算机科学与AI技术发展飞快。

  20年前在大型实验室里才能尝试的图像目标识别,如今仅凭一台古董级别的T440就能运行。

  当然,这并非是图像目标识别这件事情简单,而是在无数的人开源贡献之下,让这项技术使用起来变得简单。

 

 

本章已完结