ffmpeg的对象架构简析——解复用器

xiaoxiao2022-06-29 67

看这篇文章你需要对ffmpeg已经有一定的使用经验，知道如何read帧，解帧，或者write等。 ffmpeg内部使用跑结构体表函数指针的方式，实现了类似C++的多态性，，我们来简析一下。【注册表】我们使用ffmpeg，首先要执行av_register_all，这个玩意儿把全局的解码器、编码器等结构体注册到一些全局的对象表里，以便后面跑表调用。注册的类型有：解复用器、重复用器、解码器、编码器、包解析器、BitStreamFilter（位流处理器）。【解封装（解复用器）】解复用的工作主要有： 1、判断流格式是否支持（正确）。 2、提取流的头信息，比如视频的长宽、音频的声道样本数等。 3、读取压缩的数据流，用于被解码器解码。这3个步骤，就是我们使用的抽象化的3个函数： avformat_open_input->av_find_stream_info->av_read_frame。我们来看一下ffmpeg中解复用器的核心结构（以FLAC音频为例）： [cpp] view plain copy AVInputFormat ff_flac_demuxer = { .name = "flac", .long_name = NULL_IF_CONFIG_SMALL("raw FLAC"), .read_probe = flac_probe, .read_header = flac_read_header, .read_packet = ff_raw_read_partial_packet, .flags = AVFMT_GENERIC_INDEX, .extensions = "flac", .raw_codec_id = AV_CODEC_ID_FLAC, }; 在我们执行av_register_all后，这个flac的AVInputFormat结构体指针会被注册到一个全局对象表里。而avformat_open_input的工作很简单，其通过avio从来源读取字节流头，然后跑这个全局对象表，一个个去执行read_probe函数，如果哪个read_probe认了就行了。我们看flac的read_probe实现： [cpp] view plain copy static int flac_probe(AVProbeData *p) { if (p->buf_size < 4 || memcmp(p->buf, "fLaC", 4)) return 0; return AVPROBE_SCORE_EXTENSION; } 这个probe仅仅只是判断了头是不是fLaC这个字符，是就是ok了，我认了，不是，让avformat_open_input继续匹配文件扩展名（如果有的话）。如果全部的probe函数都不认，则open失败。如果有一个probe认了，本来按照理论上来说，read_header应该是在av_find_stream_info执行的，但是ffmpeg还是将其放在了avformat_open_input，其实效果也一样，我们来看看flac的read_header： [cpp] view plain copy static int flac_read_header(AVFormatContext *s) { int ret, metadata_last=0, metadata_type, metadata_size, found_streaminfo=0; uint8_t header[4]; uint8_t *buffer=NULL; AVStream *st = avformat_new_stream(s, NULL); if (!st) return AVERROR(ENOMEM); st->codec->codec_type = AVMEDIA_TYPE_AUDIO; st->codec->codec_id = AV_CODEC_ID_FLAC; st->need_parsing = AVSTREAM_PARSE_FULL_RAW; /* the parameters will be extracted from the compressed bitstream */ /* if fLaC marker is not found, assume there is no header */ if (avio_rl32(s->pb) != MKTAG('f','L','a','C')) { avio_seek(s->pb, -4, SEEK_CUR); return 0; } /* process metadata blocks */ while (!url_feof(s->pb) && !metadata_last) { avio_read(s->pb, header, 4); avpriv_flac_parse_block_header(header, &metadata_last, &metadata_type, &metadata_size); switch (metadata_type) { /* allocate and read metadata block for supported types */ case FLAC_METADATA_TYPE_STREAMINFO: case FLAC_METADATA_TYPE_CUESHEET: case FLAC_METADATA_TYPE_PICTURE: case FLAC_METADATA_TYPE_VORBIS_COMMENT: buffer = av_mallocz(metadata_size + FF_INPUT_BUFFER_PADDING_SIZE); if (!buffer) { return AVERROR(ENOMEM); } if (avio_read(s->pb, buffer, metadata_size) != metadata_size) { RETURN_ERROR(AVERROR(EIO)); } break; /* skip metadata block for unsupported types */ default: ret = avio_skip(s->pb, metadata_size); if (ret < 0) return ret; } if (metadata_type == FLAC_METADATA_TYPE_STREAMINFO) { FLACStreaminfo si; /* STREAMINFO can only occur once */ if (found_streaminfo) { RETURN_ERROR(AVERROR_INVALIDDATA); } if (metadata_size != FLAC_STREAMINFO_SIZE) { RETURN_ERROR(AVERROR_INVALIDDATA); } found_streaminfo = 1; st->codec->extradata = buffer; st->codec->extradata_size = metadata_size; buffer = NULL; /* get codec params from STREAMINFO header */ avpriv_flac_parse_streaminfo(st->codec, &si, st->codec->extradata); /* set time base and duration */ if (si.samplerate > 0) { avpriv_set_pts_info(st, 64, 1, si.samplerate); if (si.samples > 0) st->duration = si.samples; } } else if (metadata_type == FLAC_METADATA_TYPE_CUESHEET) { uint8_t isrc[13]; uint64_t start; const uint8_t *offset; int i, chapters, track, ti; if (metadata_size < 431) RETURN_ERROR(AVERROR_INVALIDDATA); offset = buffer + 395; chapters = bytestream_get_byte(&offset) - 1; if (chapters <= 0) RETURN_ERROR(AVERROR_INVALIDDATA); for (i = 0; i < chapters; i++) { if (offset + 36 - buffer > metadata_size) RETURN_ERROR(AVERROR_INVALIDDATA); start = bytestream_get_be64(&offset); track = bytestream_get_byte(&offset); bytestream_get_buffer(&offset, isrc, 12); isrc[12] = 0; offset += 14; ti = bytestream_get_byte(&offset); if (ti <= 0) RETURN_ERROR(AVERROR_INVALIDDATA); offset += ti * 12; avpriv_new_chapter(s, track, st->time_base, start, AV_NOPTS_VALUE, isrc); } av_freep(&buffer); } else if (metadata_type == FLAC_METADATA_TYPE_PICTURE) { ret = ff_flac_parse_picture(s, buffer, metadata_size); av_freep(&buffer); if (ret < 0) { av_log(s, AV_LOG_ERROR, "Error parsing attached picture.\n"); return ret; } } else { /* STREAMINFO must be the first block */ if (!found_streaminfo) { RETURN_ERROR(AVERROR_INVALIDDATA); } /* process supported blocks other than STREAMINFO */ if (metadata_type == FLAC_METADATA_TYPE_VORBIS_COMMENT) { if (ff_vorbis_comment(s, &s->metadata, buffer, metadata_size)) { av_log(s, AV_LOG_WARNING, "error parsing VorbisComment metadata\n"); } } av_freep(&buffer); } } return 0; fail: av_free(buffer); return ret; } 首先，我们看到它avformat_new_stream了一个流，因为flac音频只有一个流。然后我们可以看到，它设置了codec的type和id，就像在DShow里面我们设置MajorType和SubType一样。我们看到下面有行代码：st->need_parsing = AVSTREAM_PARSE_FULL_RAW; 这个是指示parser（包解析器）的flag，后面说。再来就进入遍历flac的metadata块过程。因为我们不是分析flac格式，我这里也不会说flac的metadata块是如何如何，我们只说，当read_header后，AVFormatContext这个结构体，变成啥样了。 flac文件的流信息存储在FLAC_METADATA_TYPE_STREAMINFO块里面，我们看到，在跑FLAC_METADATA_TYPE_STREAMINFO块的时候： [cpp] view plain copy if (metadata_type == FLAC_METADATA_TYPE_STREAMINFO) { FLACStreaminfo si; /* STREAMINFO can only occur once */ if (found_streaminfo) { RETURN_ERROR(AVERROR_INVALIDDATA); } if (metadata_size != FLAC_STREAMINFO_SIZE) { RETURN_ERROR(AVERROR_INVALIDDATA); } found_streaminfo = 1; st->codec->extradata = buffer; st->codec->extradata_size = metadata_size; buffer = NULL; /* get codec params from STREAMINFO header */ avpriv_flac_parse_streaminfo(st->codec, &si, st->codec->extradata); /* set time base and duration */ if (si.samplerate > 0) { avpriv_set_pts_info(st, 64, 1, si.samplerate); if (si.samples > 0) st->duration = si.samples; } 首先，codec->extradata有数据了（就像H264解码器需要SPS\PPS\NAL头一样）。然后代码里，我们可以看到，流的总长度有了，流的采样率有了，我们再看看avpriv_flac_parse_streaminfo函数： [cpp] view plain copy void avpriv_flac_parse_streaminfo(AVCodecContext *avctx, struct FLACStreaminfo *s, const uint8_t *buffer) { GetBitContext gb; init_get_bits(&gb, buffer, FLAC_STREAMINFO_SIZE*8); skip_bits(&gb, 16); /* skip min blocksize */ s->max_blocksize = get_bits(&gb, 16); if (s->max_blocksize < FLAC_MIN_BLOCKSIZE) { av_log(avctx, AV_LOG_WARNING, "invalid max blocksize: %d\n", s->max_blocksize); s->max_blocksize = 16; } skip_bits(&gb, 24); /* skip min frame size */ s->max_framesize = get_bits_long(&gb, 24); s->samplerate = get_bits_long(&gb, 20); s->channels = get_bits(&gb, 3) + 1; s->bps = get_bits(&gb, 5) + 1; avctx->channels = s->channels; avctx->sample_rate = s->samplerate; avctx->bits_per_raw_sample = s->bps; ff_flac_set_channel_layout(avctx); s->samples = get_bits64(&gb, 36); skip_bits_long(&gb, 64); /* md5 sum */ skip_bits_long(&gb, 64); /* md5 sum */ } 可以看到，解码一个音频需要的东西都有了，声道、采样率、速率、声道布局、样本总数都已经保存起来了。而这些信息全部设置在AVCodecContext里，由此，我们可以得出结论，read_header就是一个提取解码器需要的私有信息的函数。 read_header完成，基本上avformat_open_input就要返回了，此时AVCodecContext虽然有一些信息了，但是AVFormatContext还是挺空虚的（此时它已经有流的总数），我们需要填充它，就应该到调用av_find_stream_info的时候了。 av_find_stream_info主要做的工作有几个： 1、填充AVFormatContext信息，比如总长度，timebase、pts、dts和一些内部信息。 2、初始化解码器需要的一些信息。 3、如果需要，则初始化包解析器（parser）。 4、如果需要，尝试解码一些数据，来获取媒体信息。这里我们忽略前面二点，因为他们跟解封装的关系不大，而第三点，则是跟解封装有莫大关联的。我们先假设，我们av_find_stream_info成功了。此时我们可以av_read_frame了。我们知道，av_read_frame读出来的AVFrame，如果是视频，则是视频的一帧(IPB中)，如果是音频，则是几帧。但是av_read_frame不会有断帧的情况，就是不会有0.5帧这种情况，这个到底是如何做的呢，我们来看。首先我们回到上面的： [cpp] view plain copy AVInputFormat ff_flac_demuxer = { .name = "flac", .long_name = NULL_IF_CONFIG_SMALL("raw FLAC"), .read_probe = flac_probe, .read_header = flac_read_header, .read_packet = ff_raw_read_partial_packet, .flags = AVFMT_GENERIC_INDEX, .extensions = "flac", .raw_codec_id = AV_CODEC_ID_FLAC, }; 我们看了read_probe用于判断，read_header用于解析头，那还有一个关键的东西没看，就是那个read_packet。我们可以看到，flac这里的read_packet指向了一个公用函数ff_raw_read_partial_packet，我们来看看这个函数： [cpp] view plain copy #define RAW_PACKET_SIZE 1024 int ff_raw_read_partial_packet(AVFormatContext *s, AVPacket *pkt) { int ret, size; size = RAW_PACKET_SIZE; if (av_new_packet(pkt, size) < 0) return AVERROR(ENOMEM); pkt->pos= avio_tell(s->pb); pkt->stream_index = 0; ret = ffio_read_partial(s->pb, pkt->data, size); if (ret < 0) { av_free_packet(pkt); return ret; } av_shrink_packet(pkt, ret); return ret; } 这个函数那真是十分简单，其注意做的工作就是： 1、新建一个1024字节的AVPacket。 2、从IO读1024字节的数据（如果当前指针到文件尾没有1024字节，即读差值）。 3、把实际读取到的数据写回包size（av_shrink_packet）。我们可以看到，这玩意儿每次就读个1024字节，可就算是音频文件，也不可能说所有帧在文件里面的偏移都对齐到1024个字节，也不可能说一个帧大小必定是1024字节，而且对视频文件，读到的1024字节的数据还会穿插着视频\音频帧，所以这个AVPacket肯定不会是我们调用av_read_frame出来的那么漂亮的AVPakcet，必然是经过“修整”的，那这个修整模块在哪里呢？即为parser。我们来看flac的parser结构： [cpp] view plain copy AVCodecParser ff_flac_parser = { .codec_ids = { AV_CODEC_ID_FLAC }, .priv_data_size = sizeof(FLACParseContext), .parser_init = flac_parse_init, .parser_parse = flac_parse, .parser_close = flac_parse_close, }; 我们可以看到，demuxer和parser都关联了同一个codec的id，即AV_CODEC_ID_FLAC，表明他们是连接在一起的。 parser结构由av_find_stream_info初始化，av_find_stream_info会执行av_parser_init通过codec_id给一个个流初始化parser。 av_parser_init的查找方式也是跟查找demuxer一样，parser已经注册在了全局的表里面，跑表匹配即可。关于包解析器，下次细说。

转载请注明原文地址: https://ju.6miu.com/read-1125024.html

专利

最新回复(0)