Qt/C++音视频开发46-音视频同步保存到MP4

liudianwu 发表于 2023-7-12 09:55:51

## 一、前言
用ffmpeg单独做视频保存不难，单独做音频保存也不难，难的是音视频同步保存到MP4中，重点是音视频要同步，其实这也不难，只要播放那边音视频同步后的数据，写入到文件即可。最难的是在播放过程中不断随机的切换播放进度，而且还会暂停播放、暂停录制的情况出现，这些个复杂情况的出现，可以说，测试了所有网络上可能找到的相关代码，没有一个是行得通的，基本上都是停留在最简单的处理。那怎么办呢？近期花了半个月的时间，闭门把这个硬骨头啃下来，专门处理这个问题，毕竟暂停播放、暂停录制、切换进度这些个情况都是极大概率发生的，这一关过不了，就无法号称最全播放组件了。总之核心的解决办法就是，除了要重新调整时间基准以外，还需要在前面重新按照帧数量和音频的时长来设置pts/dts，网上能找到的代码，几乎都没看到这个计算，几乎都是调整时间基准的。大致整理了下能够做到下面几点的才能基本合格。

1. 网上的保存计算都是在理想状态下进行的(打开后从第一帧开始保存直到结束)
2. 中间如果切换了播放进度(不是连续的帧)
3. 中间暂停了流采集或者暂停了录制(不是连续的时间)
4. 同时支持录制到文件和推流到服务器
5. 音视频同步输出(任意切换进度自动同步)
6. 指定只存储视频或者音频
7. 音视频流索引顺序是0/1和1/0
8. 不编码存储和重新编码存储

为何要区分不编码存储和重新编码存储？因为编码要占用cpu，对于源头就是H264/265/AAC这种，完全可以不用编码直接存储到MP4文件中，可以大大节约CPU资源，所以保存类的设计中，就应该有这个判断。

## 二、效果图

## 三、体验地址
1. 国内站点：[https://gitee.com/feiyangqingyun](https://gitee.com/feiyangqingyun)
2. 国际站点：[https://github.com/feiyangqingyun](https://github.com/feiyangqingyun)
3. 个人作品：[https://blog.csdn.net/feiyangqingyun/article/details/97565652](https://blog.csdn.net/feiyangqingyun/article/details/97565652)
4. 体验地址：[https://pan.baidu.com/s/1d7TH_GEYl5nOecuNlWJJ7g](https://pan.baidu.com/s/1d7TH_GEYl5nOecuNlWJJ7g) 提取码：01jf 文件名：bin_video_demo。

## 四、功能特点
### 4.1 基础功能
1. 支持各种音频视频文件格式，比如mp3、wav、mp4、asf、rm、rmvb、mkv等。
2. 支持本地摄像头设备，可指定分辨率、帧率。
3. 支持各种视频流格式，比如rtp、rtsp、rtmp、http等。
4. 本地音视频文件和网络音视频文件，自动识别文件长度、播放进度、音量大小、静音状态等。
5. 文件可以指定播放位置、调节音量大小、设置静音状态等。
6. 支持倍速播放文件，可选0.5倍、1.0倍、2.5倍、5.0倍等速度，相当于慢放和快放。
7. 支持开始播放、停止播放、暂停播放、继续播放。
8. 支持抓拍截图，可指定文件路径，可选抓拍完成是否自动显示预览。
8. 支持录像存储，手动开始录像、停止录像，部分内核支持暂停录像后继续录像，跳过不需要录像的部分。
9. 支持无感知切换循环播放、自动重连等机制。
10. 提供播放成功、播放完成、收到解码图片、收到抓拍图片、视频尺寸变化、录像状态变化等信号。
11. 多线程处理，一个解码一个线程，不卡主界面。

### 4.2 特色功能
1. 同时支持多种解码内核，包括qmedia内核（Qt4/Qt5/Qt6）、ffmpeg内核（ffmpeg2/ffmpeg3/ffmpeg4/ffmpeg5）、vlc内核（vlc2/vlc3）、mpv内核（mpv1/mp2）、监控厂家sdk内核等。
2. 非常完善的多重基类设计，新增一种解码内核只需要实现极少的代码量，就可以应用整套机制。
3. 同时支持多种画面显示策略，自动调整（原始分辨率小于显示控件尺寸则按照原始分辨率大小显示，否则等比例缩放）、等比例缩放（永远等比例缩放）、拉伸填充（永远拉伸填充）。所有内核和所有视频显示模式下都支持三种画面显示策略。
4. 同时支持多种视频显示模式，句柄模式（传入控件句柄交给对方绘制控制）、绘制模式（回调拿到数据后转成QImage用QPainter绘制）、GPU模式（回调拿到数据后转成yuv用QOpenglWidget绘制）。
5. 支持多种硬件加速类型，ffmpeg可选dxva2、d3d11va等，mpv可选auto、dxva2、d3d11va，vlc可选any、dxva2、d3d11va。不同的系统环境有不同的类型选择，比如linux系统有vaapi、vdpau，macos系统有videotoolbox。
6. 解码线程和显示窗体分离，可指定任意解码内核挂载到任意显示窗体，动态切换。
7. 支持共享解码线程，默认开启并且自动处理，当识别到相同的视频地址，共享一个解码线程，在网络视频环境中可以大大节约网络流量以及对方设备的推流压力。国内顶尖视频厂商均采用此策略。这样只要拉一路视频流就可以共享到几十个几百个通道展示。
8. 自动识别视频旋转角度并绘制，比如手机上拍摄的视频一般是旋转了90度的，播放的时候要自动旋转处理，不然默认是倒着的。
9. 自动识别视频流播放过程中分辨率的变化，在视频控件上自动调整尺寸。比如摄像机可以在使用过程中动态配置分辨率，当分辨率改动后对应视频控件也要做出同步反应。
10. 音视频文件无感知自动切换循环播放，不会出现切换期间黑屏等肉眼可见的切换痕迹。
11. 视频控件同时支持任意解码内核、任意画面显示策略、任意视频显示模式。
12. 视频控件悬浮条同时支持句柄、绘制、GPU三种模式，非绝对坐标移来移去。
13. 本地摄像头设备支持指定设备名称、分辨率、帧率进行播放。
14. 录像文件同时支持打开的视频文件、本地摄像头、网络视频流等。
15. 瞬间响应打开和关闭，无论是打开不存在的视频或者网络流，探测设备是否存在，读取中的超时等待，收到关闭指令立即中断之前的操作并响应。
16. 支持打开各种图片文件，支持本地音视频文件拖曳播放。
17. 视频控件悬浮条自带开始和停止录像切换、声音静音切换、抓拍截图、关闭视频等功能。
18. 音频组件支持声音波形值数据解析，可以根据该值绘制波形曲线和柱状声音条，默认提供了声音振幅信号。
19. 代码框架和结构优化到极致，性能彪悍，持续迭代更新升级。
20. 源码支持Qt4、Qt5、Qt6，兼容所有版本。

### 4.3 视频控件
1. 可动态添加任意多个osd标签信息，标签信息包括名字、是否可见、字号大小、文本文字、文本颜色、标签图片、标签坐标、标签格式（文本、日期、时间、日期时间、图片）、标签位置（左上角、左下角、右上角、右下角、居中、自定义坐标）。
2. 可动态添加任意多个图形信息，这个非常有用，比如人工智能算法解析后的图形区域信息直接发给视频控件即可。图形信息支持任意形状，直接绘制在原始图片上，采用绝对坐标。
3. 图形信息包括名字、边框大小、边框颜色、背景颜色、矩形区域、路径集合、点坐标集合等。
4. 每个图形信息都可指定三种区域中的一种或者多种，指定了的都会绘制。
5. 内置悬浮条控件，悬浮条位置支持顶部、底部、左侧、右侧。
6. 悬浮条控件参数包括边距、间距、背景透明度、背景颜色、文本颜色、按下颜色、位置、按钮图标代码集合、按钮名称标识集合、按钮提示信息集合。
7. 悬浮条控件一排工具按钮可自定义，通过结构体参数设置，图标可选图形字体还是自定义图片。
8. 悬浮条按钮内部实现了录像切换、抓拍截图、静音切换、关闭视频等功能，也可以自行在源码中增加自己对应的功能。
9. 悬浮条按钮对应实现了功能的按钮，有对应图标切换处理，比如录像按钮按下后会切换到正在录像中的图标，声音按钮切换后变成静音图标，再次切换还原。
10. 悬浮条按钮单击后都用名称唯一标识作为信号发出，可以自行关联响应处理。
11. 悬浮条空白区域可以显示提示信息，默认显示当前视频分辨率大小，可以增加帧率、码流大小等信息。
12. 视频控件参数包括边框大小、边框颜色、焦点颜色、背景颜色（默认透明）、文字颜色（默认全局文字颜色）、填充颜色（视频外的空白处填充黑色）、背景文字、背景图片（如果设置了图片优先取图片）、是否拷贝图片、缩放显示模式（自动调整、等比例缩放、拉伸填充）、视频显示模式（句柄、绘制、GPU）、启用悬浮条、悬浮条尺寸（横向为高度、纵向为宽度）、悬浮条位置（顶部、底部、左侧、右侧）。

### 4.4 内核ffmpeg
1. 支持各种音视频文件、本地摄像头设备，各种视频流网络流。
2. 支持开始播放、暂停播放、继续播放、停止播放、设置播放进度、倍速播放。
3. 可设置音量、静音切换、抓拍图片、录像存储。
4. 自动提取专辑信息比如标题、艺术家、专辑、专辑封面，自动显示专辑封面。
5. 完美支持音视频同步和倍速播放。
6. 解码策略支持速度优先、质量优先、均衡处理、最快速度。
7. 支持手机视频旋转角度显示，比如一般手机拍摄的视频是旋转了90度的，解码显示的时候需要重新旋转90度才是正的。
8. 自动转换yuv420格式，比如本地摄像头是yuyv422格式，有些视频文件是xx格式，统一将非yuv420格式转换，然后再进行处理。
9. 支持硬解码dxva2、d3d11va等，性能极高尤其是大分辨率比如4K视频。
10. 视频响应极低延迟0.2s左右，极速响应打开视频流0.5s左右，专门做了优化处理。
11. 硬解码和GPU绘制组合，极低CPU占用，比海康大华等客户端更优。
12. 支持视频流中的各种音频格式，AAC、PCM、G.726、G.711A、G.711Mu、G.711ulaw、G.711alaw、MP2L2等都支持，推荐选择AAC兼容性跨平台性最好。
13. 视频存储支持yuv、h264、mp4多种格式，音频存储支持pcm、wav、aac多种格式。默认视频mp4格式、音频aac格式。
14. 支持分开存储音频视频文件，也支持合并到一个mp4文件，默认策略是无论何种音视频文件格式存储，最终都转成mp4及aac格式，然后合并成音视频一起的mp4文件。
15. 支持本地摄像头实时视频显示带音频输入输出，音视频录制合并到一个mp4文件。
16. 支持H265编码（现在越来越多的监控摄像头是H265视频流格式）生成视频文件，内部自动识别切换编码格式。
17. 自动识别视频流动态分辨率改动，重新打开视频流。
18. 纯qt+ffmpeg解码，非sdl等第三方绘制播放依赖，gpu绘制采用qopenglwidget，音频播放采用qaudiooutput。
19. 同时支持ffmpeg2、ffmpeg3、ffmpeg4、ffmpeg5版本，全部做了兼容处理。如果需要支持xp需要选用ffmpeg3及以下。

## 五、相关代码
```cpp
void FFmpegSaveSimple::run()
{
if (!this->open()) {
   this->close();
   return;
}

int ret;
AVPacket packet;
qint64 videoCount = 0;
qint64 startTime = av_gettime();

while (!stopped) {
   //读取一帧
   ret = av_read_frame(formatCtxIn, &packet);
   int index = packet.stream_index;
   if (ret < 0) {
         if (ret == AVERROR_EOF || ret == AVERROR_EXIT) {
            debug(ret, "文件结束");
            break;
         } else {
            debug(ret, "读取出错");
            continue;
         }
   }

   //取出输入输出流的时间基
   AVStream *streamIn = formatCtxIn->streams;
   AVStream *streamOut = formatCtxOut->streams;
   AVRational timeBaseIn = streamIn->time_base;
   AVRational timeBaseOut = streamOut->time_base;

   if (index == videoIndex) {
         videoCount++;
   }

   //纠正有些文件比如h264格式的没有pts
   if (packet.pts == AV_NOPTS_VALUE) {
         qreal fps = av_q2d(formatCtxIn->streams->r_frame_rate);
         FFmpegHelper::rescalePacket(&packet, timeBaseIn, videoCount, fps);
   }

   //延时(防止数据太快给缓存造成太大压力)
   if (index == videoIndex) {
         AVRational timeBase = {1, AV_TIME_BASE};
         int64_t ptsTime = av_rescale_q(packet.dts, timeBaseIn, timeBase);
         int64_t nowTime = av_gettime() - startTime;
         if (ptsTime > nowTime) {
            av_usleep(ptsTime - nowTime);
         }
   }

   //重新调整时间基准
   FFmpegHelper::rescalePacket(&packet, timeBaseIn, timeBaseOut);

   qDebug() << TIMEMS << "发送一帧" << videoCount << packet.flags << packet.pts << packet.dts;
   //ret = av_write_frame(formatCtxOut, &packet);
   ret = av_interleaved_write_frame(formatCtxOut, &packet);
   if (ret < 0) {
         debug(ret, "写数据包");
         break;
   }

   av_packet_unref(&packet);
}

//写文件尾
av_write_trailer(formatCtxOut);
this->close();
}

void FFmpegHelper::rescalePacket(AVPacket *packet, AVRational timeBaseIn, qint64 &count, qreal fps)
{
count++;
qreal duration = AV_TIME_BASE / fps;
packet->pts = (count * duration) / (av_q2d(timeBaseIn) * AV_TIME_BASE);
packet->dts = packet->pts;
packet->duration = duration / (av_q2d(timeBaseIn) * AV_TIME_BASE);
}

void FFmpegHelper::rescalePacket(AVPacket *packet, AVRational timeBaseIn, AVRational timeBaseOut)
{
//1. av_rescale_q里面调用的av_rescale_q_rnd
//2. av_rescale_q_rnd里面调用的av_rescale_rnd
//3. av_packet_rescale_ts对pts/dts/duration三者调用av_rescale_q
#if 1
packet->pts = av_rescale_q_rnd(packet->pts, timeBaseIn, timeBaseOut, AVRounding(AV_ROUND_NEAR_INF | AV_ROUND_PASS_MINMAX));
packet->dts = av_rescale_q_rnd(packet->dts, timeBaseIn, timeBaseOut, AVRounding(AV_ROUND_NEAR_INF | AV_ROUND_PASS_MINMAX));
packet->duration = av_rescale_q(packet->duration, timeBaseIn, timeBaseOut);
#else
av_packet_rescale_ts(packet, timeBaseIn, timeBaseOut);
#endif
packet->pos = -1;
}

void FFmpegHelper::rescalePacket(AVPacket *packet, AVRational timeBaseIn, AVRational timeBaseOut, qint64 &duration)
{
//qDebug() << TIMEMS << duration << packet->duration << timeBaseIn.den << timeBaseIn.num << timeBaseOut.den << timeBaseOut.num;
packet->pts = av_rescale_q_rnd(duration, timeBaseIn, timeBaseOut, AV_ROUND_UP);
packet->dts = packet->pts;//av_rescale_q_rnd(duration, timeBaseIn, timeBaseOut, AV_ROUND_UP);
//packet->duration = av_rescale_q_rnd(packet->duration, timeBaseIn, timeBaseOut,AV_ROUND_UP);
packet->pos = -1;
duration += packet->duration;
}
```

页: [1]

Qt开源社区's Archiver

Qt/C++音视频开发46-音视频同步保存到MP4