导论-视觉AI技术应用探索

视觉生产技术

一,定义和分类

1,定义

  • 一类是视觉理解, 比如检测,识别,分割等
  • 另外一类是视觉生产,也可以理解为怎么去产生视觉,指通过一个/一系列视觉过程,产生新的视觉表达。
    2, 分类
  • 视觉生产主要包括生成,拓展,摘要,升维,另外还有增强/变换,插入/合成,擦除等。
    • 生成: 从 0 到 1
    • 拓展: 从 1 到 N
    • 摘要: 从 N 到 1
    • 升维: 从 An 到 An+1
    • 增强/变换: 从 A 到 B
    • 插入/合成: A + B = C
    • 擦除: A - B = C
      3, 通用基础框架
  • 可能在细节上有细微不同,但是一般来讲其逻辑是类似的,包括请求(Request),分发(Dispatch),服务(Service)和响应(Response)四大部分。
    4, 五大关键维度
  • 可看: 满足视觉/美学表现
  • 合理: 合乎语义/内容逻辑
  • 多样: 保证结果的丰富性
  • 可控: 提供用户预期的抓手
  • 可用: 带来用户/商业价值

二,精细理解—-分割抠图

  • 识别:知道是什么,比如人的识别、物的识别;
  • 检测:识别+知道在哪,比如缺陷检测、多目标检测;
  • 分割:识别+检测+知道每一个像素是什么。
  • 视觉分割是生产的必要前置步骤。

    1、难点

  • 复杂背景、遮挡、要求高精度(如发丝精抠)、边缘反色、透明材质、多尺度/目标

2、解题思路

  • 复杂问题拆解:粗mask估计+精准matting
  • 丰富数据样本:设计图像mask统一模型

3、效果展示



三、视觉生成——从无到有

1、鹿班

  • 鹿班是针对平面图像设计生成的产品,其视觉生成大概过程包括理需求、定草图、选状态、调细节、生成图、评好坏6个步骤。
  • 照图生图:参考原图,将风格、布局等信息学习并迁移到目标数据上;
    个性化设计:多元化设计风格,结合商品品类、投放场景、目标客群的差异进行定制化设计。

    2、AlibabaWood

  • 当下最流行的媒体莫过于短视频,而AlibabaWood专注于短视频的生成,同时还有剧本生成、智能文案生成、自动剪辑、智能音乐推荐等实用功能。它的框架流程总体包括素材准备、基础特效、智能特效和智能编排四大步骤。

  • 视频摘要

  • 视频封面

    四、视觉编辑——移花接木

    1、视频植入
    视频植入就是在视频中加入一些本来没有的内容,当前其应用最广泛的就是广告。
    视频植入是一项非常复杂的技术,需要考虑到方方面面,比如广告位检测、广告位跟踪等等,有时会遇到遮挡、移出屏幕等复杂情况跟踪,而且在视频植入之后还要考虑广告是否能够跟视频细节匹配、光影渲染等问题。

2、视频内容擦除
实用技术有字幕擦除、台标擦除、广告擦除、场景文字擦除、人体擦除等,其核心挑战与亮点是分割,只有更精确的分割才能够精确的擦除。

3、画幅变化
在不同设备上播放视频时可能会出现尺寸不匹配的情况,这时候就要进行画幅变化,变化之后为了有完整的视觉效果,需要进行内容补全。

4、图像尺寸变化
事先准备好的图片在不同尺寸不同场合可以自动变化,适应各种情况。

五、视觉增强——修旧如新

1、视频增强

  • 对视频效果的增强,包括包括单点核心技术和复合应用技术。
  • 单点核心技术:人脸增强、去噪声、通用场景超分、LDR升HDR、倍频、去划痕
  • 复合应用技术、人脸修复、标清转高清、LDR-HDR互转、4K重生、(磁带)老片修复、端上实时增强

2、实例

  • 人脸修复增强:人脸是最重要的目标对象,可以用视觉增强技术对人脸进行修复增强,突出主要信息。
  • 渲染图超分:把低分辨率图像放大到与高清原图一样的清晰度。
  • 视频超分:除了对图像进行超分外,还可以对视频进行超分,使得视频更加清晰,增加显示效果。
  • 视频插帧:众所周知,帧率越高观感越流畅。对视频进行插帧可以有效的减少视频的卡顿感。
    -HDR 色彩扩展:除了帧率之外,色彩也是一个很重要的元素,也是视频高清的一个必要条件,运用视觉增强技术可以很好进行HDR 色彩扩展,增强视频显示效果。
  • 风格迁移与颜色拓展:视觉增强还可以用来进行风格迁移,比如某些相机软件,可以将一些名画的风格迁移到用户所拍摄的照片上,实现照片的风格多样化。另外,视觉增强还可以进行颜色的拓展,同时产生不同色彩搭配的效果,满足不同的需求和色彩的多样性。

六、视觉制造——由虚入实

我们可以利用视觉制造技术来解决实际生产过程中面临的效率低、协同差、定制难等问题。

七、视觉开放平台

上面所提到的技术都可以在阿里巴巴的视觉智能开放平台https://vision.aliyun.com/上找到。划重点:目前还是免费使用。