扒光AI数字人的底裤-技术圈

马佳彬

网络营销老司机

微信最近又改版啦，一定别忘记点击上方 “马佳彬”，将其设为星标★和置顶公众号！更多干货，不再错过！

AI数字人，现在已经不是一个新概念，隔壁宋大爷都会拿自己年轻时候的照片，APP一顿扒拉整成会说话的帅小伙，发视频号啥的老讨大妈们喜欢了。

会用不代表懂基本原理，该被收割还是得认，尤其是传统企业的老板们，韭菜根都快被薅没了，还伸着脑袋往前送。

这不，马友会的烧烤哥近期准备搞个数字人，一看报价60个W，摸摸口袋想起了经常白嫖的老马，递了根28年的华子，让讲讲啥是AI数字人。

本着受人恩惠，砸他人饭碗不留情的做人原则，老马将从科普的角度，尽可能大白话给大家聊清楚市面上AI数字人的普遍情况，不代表一棍子打死，但至少大部分人是这么忽悠你的。

一、基本概念

先来了解一下基本的几个概念，分别是AI算法、AI模型、人体建模、声音克隆、文字生成语音、语音同步嘴型。

AI算法：多种数学模型和计算方法的应用，你可以简单的理解成为一些数学公式的计算就行了，再深入什么卷积神经网络之类的可以不用管。

AI模型：利用AI算法对数据进行分析、处理、预测和优化的数学模型，你可以简单地理解为AI模型就是AI算法的结果。

它们之间简单的逻辑关系是：AI算法 → 数据训练 → AI模型。

总结一句话，AI算法是为了解决某个问题某种任务的计算步骤和逻辑，通过大量的数据训练之后就得到了具体的AI模型。

人体建模：AI数字人既然是人，那就涉及到人体建模。这里的建模，跟AI的模型不是同一个概念，要搞清楚，人体建模主要是三维和二维，三维（3D）就是立体，二维（2D）就是平面。

目前在短视频制作上都是二维平面的人体，三维人体应用得比较少，三维人体看起来比较假，部分B站的VTuber（虚拟主播）会用到卡通的三维人体。

专业的人体建模涉及到数据采集、特征提取、模型构建、姿态估计等操作，目前短视频中的绝大部分数字人都不是人体建模，而是一个拍摄的视频。

是的，你没听错，这些所谓的数字人模型，就是让一个真人站在绿幕前，简单地摆摆手，摇摇头，动动嘴巴，做一些固定的动作，拍成一个视频。

这样的视频因为是用绿幕拍摄的，所以视频抠像（类似于绿幕抠图）换别的背景是很容易的事情。

图片来自网络

声音克隆：比如你的高德地图语音包用的是林志玲姐姐，林姐姐的声音就是克隆的。现在只要你愿意动手，先录制一些自己的声音素材，使用诸如GPT-SoVITS、Bert-VITS2等开源项目，就可以复制你的声音。

声音克隆的逻辑关系是这样的：声音数据 → 克隆算法 → 训练模型 → 模型推理（文本生成语音）。

文字生成语音： 克隆完你的声音之后，有了自己的声音模型，你就可以输入文字，让模型帮你生成一段语音，专业名词叫TTS，最后这段语音就好像你自己讲出来的一样。

语音同步嘴型：跟自己声音一样的语音有了，那么就可以用语音来匹配视频中人物讲话的嘴型，使得嘴型跟所讲的内容对应，俗称对嘴型，看起来更加真实，更像真人。

同样的，如果你动手能力强，使用开源项目Wav2Lip，让一张照片、一段视频讲话，嘴型对得上，声音也是自己的，完全没问题。

了解以上这些概念，AI数字人具体是怎样实现的，就很容易理解了。无非几种方式叠加应用而已，下面具体说说市面上常见的AI数字人类型，及其实现的方式。以下数字人1.0-3.0是老马个人的分类方式，与行业标准无关。

二、数字人1.0

先说结论，不存在真正的人体建模，拍了一堆不同人物的视频，假装成数字人模型，有男女老少，不同身份，不同国籍，不同服装等等让你选择，如图：

图片来自网络

没有声音克隆，只有一些现成的说话人给你选择，比如讲东北话的张三，讲河南话的李四，萝莉音的小美等，你输入文字选择完说话人就能生成一段语音，语音再加上现成拍好的人物视频，一合成就成了所谓的AI生成的数字人视频。

数字人1.0你要真非得跟AI扯上点关系，也就是里面的“文字生成语音”算是AI，其它就跟你自拍个视频，放到剪映里面，把声音禁用掉，再自己录一段别的语音，拖进去剪映，加点字幕，不就变成一段新的视频了么，道理是一样的。

所以你看到很多所谓的数字人，嘴型跟讲的内容根本对不上，或者相差很大，很别扭，头部脸部手部动作都一样，基本都属于上面的操作，就这样都好意思叫数字人。

三、数字人2.0

没有人体建模，你可以提供自己出镜拍摄的视频，不再局限于现成的那些固定人物视频，然后进行数字人克隆。

克隆你本人，是需要人体建模的，所以这里所谓的数字人克隆，还是用你出镜拍摄的视频，假装成数字人模型，跟数字人1.0一样。

有声音克隆，你需要录制一些自己的声音素材提交给平台软件，去克隆生成自己的声音，原理上面讲过。

有文字生成语音，不再局限于哪些现成的说话人，你可以自行输入文字，再利用前面的声音克隆做出来的模型，生成专属于你自己的语音。

有语音同步嘴型，生成自己的语音，再去驱动视频里的自己自动说话，同步对上嘴型，这样看起来不就逼真了么，如图：

数字人2.0用到AI技术有声音克隆、文字生成语音、语音同步嘴型三种，存在的问题就是，无论你制作多少个视频，你的头部脸部手部等肢体动作都是一样的，除非你再录制一个肢体动作不一样的视频去生成。

判断是不是数字人2.0，可以仔细观察鼻子到下巴的位置，会明显看到一个透明的方框，方框内的画面明显模糊，或者变形，这是由于语音同步嘴型，需要去修改视频每一帧的画面所导致的。

四、数字人3.0

坦白来说，目前老马还没有看到真正的数字人3.0，或许老马孤陋寡闻了。但是仅仅要实现人体建模，其成本也是不低的。未来的数字人，应该是要结合GPT的，这块展开篇幅就长了，也不是本文讨论的主题。

最后下个结论，类似于实现数字人1.0和数字人2.0的技术很难吗？成本很高吗？答案是否定的，除了使用开源项目自行搭建操作，完全不懂技术的小白，也可以在某宝找到傻瓜式一键生成的软件（也是基于开源项目），如图：

大概一百块有找零，自己摸索的话差不多了，做出来的效果达到能用的水平问题不大。市面上动不动多少个w的数字人服务，老马只能说不排除有做得真正效果很牛逼的，但绝大部分都是吹牛逼的。

到此撂笔，下课！

网络营销老司机

专注搬砖，业余吹牛逼

长按识别关注即可勾搭

个人微信号：imjiabin

关注

扒光AI数字人的底裤

添加附言

相关文章推荐