课题三--Adaptive Multi-element Scheduling for Latency-sensitive Real-time Video Streaming
本文最后更新于:September 4, 2021 am
一 、研究场景和研究动机
A. 研究场景
实时对战游戏场景下,客户端与边缘服务器之间的多种媒体元素的传输调度(用户侧而非核心网侧)。算法部署于边缘结点。
B. 研究动机
1. 时延敏感网络
随着各种视频应用的兴起,网络传输对于时延的要求越来越高,学术界和工业界也高度重视,不断提出各种措施诸如QUIC协议,CMAF框架等通过增加网络资源开销或降低传输的可靠性来优化时延,然而随着5G的普及,很多应用的时延已经完全可以满足用户需求,例如:短视频和点播等,其不需要极致的时延追求,这样其就可以将资源分给对时延追求更高的应用,例如实时对战游戏,王者荣耀或者LOL等应用。所以对时延的追求并非越低越好,而是在满足确定性时延即可。
时延敏感网络指的是, 当前数据内容块需要在规定时间内传输, 并且只要满足规定时间, 就可以理论上满足用户的多媒体传输需求。 由于多媒体内容块是连续的数据, 当超出规定时间,将会影响后面的多媒体内容块传输甚至丢包。 所以只要多媒体内容块可以在规定时间内传输, 就没必要继续以增加网络开销为代价降低传输延迟。 并且可以可控的保证每一个流媒体内容块的视频质量。 所以针对不同的媒体元素构建一个在确定性时延基础上的流媒体调度策略, 可以在平衡超低时延、 资源开销和传输可靠性(丢包) 的基础上获取最优的用户体验。
2. 个性化时延敏感网络
- 在时延敏感网络中,例如:实时对战游戏场景下,针对同一视频的不同的媒体元素也会有不同的时延敏感度需求,并且有有明显的优先级特征(控制信令>音频>视频)。 例如在上班途中打王者荣耀,由于基站的切换或者建筑物的遮挡将会导致网络状态极其不稳定,在网络较差的情况下,有2种方案,第一种方案,多种媒体元素按按照轮滑或者贪心算法的方式分发调度;第二种方案,按照优先级和时延需求,优先完整传输控制信令,然后在传输音频和视频画面。显然第二种用户体验会更好。不同的视频信令是按照chunk进行传输的,如果按照轮滑的方式,在网络差的情况下,极端情况下,可能导致全部信令的整个chunk不能完整的传输,进而导致客户端不能完整的解码,最终客户端的操作发生中断;如果按照第二种方式,即使视频画面掉帧或者音频信号中断,游戏操作也会稳定传输,可以极大的降低网络不稳定带来的用户体验急剧下降。
- 由于用户的个性化需求、地域性的网络状态和流媒体视频内容的差异,导致对于同一用户,不用的视频内容也会存在对不同的媒体元素有不同的时延敏感需求(可变敏感时延)。所以如何针对不同的用户,视频内容,地域性的网络状态使得流媒体传输控制满足个性化的时延需求也是一个急需要解决的问题。
3. 流量调度算法
构建一个实时对战视频流的多种媒体元素调度算法,可以极好的优化个性化时延敏感网络的2个需求并且增强用户体验和降低资源开销。
- 传输的流量调度算法仅仅通过使用最优化理论的方法实现资源的最大化利用[1][2][3][4],而其没有考虑视频场景下用户针对不同视频内容的不同媒体元素的特性(数据块大小,优先级,时延敏感度,时钟同步)。
- 传统的流量调度算法更多的侧重于贪心算法,没有考虑确定性时延需求下的资源节省和最优化利用。不是资源全部利用就是最优的。
- 传统的流量调度算法仅仅考虑了传输内容的大小,优先级和当前的网络情况,并没有考虑流量调度策略和发送速率决策之间的相互约束关系。个性化时延敏感网络中,发送速率可以极大的影响传输时延,并且影响流量调度算法的决策。而流量调度策略也会影响发送速率的稳定性,减少多余的数据包传输,进而减少重传和丢包。如果可以很好的构建两者的约束关系,其可以最优流量调度的决策。
由于个性化延迟敏感网络下的视频流传输的特殊性,我们考虑的是同一视频流的多种媒体元素的传输控制,而非传统的muti-path or multi-chanel传输调度(一种媒体元素多条链路的传输控制),相对于传统的方案,其更加关注多种媒体元素的不同时延需求,不同优先级,和多种媒体元素的同步。
二、研究内容
构建一个实时对战视频流场景下的多种媒体元素调度算法, 其可以在满足不同用户针对不同视频内容不同媒体元素的时延需求的基础上,平衡系统的资源开销、传输可靠性和用户体验最优之间的关系,实现网络资源与个性化需求之间的感知、决策与实时适配。
- 基于流量调度策略和发送速率决策之间的相互约束关系,构建一个实时对战视频流场景下的多种媒体元素调度算法,其可以在满足同一用户针对同一视频内容不同媒体元素的时延需求的基础上,平衡系统的资源开销、传输可靠性和用户体验最优之间的关系。
- 基于用户个性化的延迟敏感度(不同用户,不同视频内容,不同媒体元素),通过元学习框架实现媒体元素调度算法的自适应调整。
三、创新点
- 本文构建了一个发送速率辅助的实时对战视频流场景下的多种媒体元素调度算法。针对于不同的媒体元素与复杂的网络情况构建定制化的深度强化学习模型,设立QoE指标奖励函数,学习在确定性时延基础上的流媒体内容块调度策略,可以在系统的资源开销、传输可靠性的基础上获取最优的用户体验。
- 流媒体传输时延的目标并非越低越好, 而是针对不同的媒体内容块满足确定性时延即可,并且不同的媒体元素对时延有明显的优先级特征(控制信令>声音>视频),不同的用户,不同的网络情况和不同的视频内容对于时延敏感度也存在不同程度的影响,因此针对于不同的延迟敏感度提出自适应的媒体元素调度算法。
四、系统方案和技术路线
A. 系统方案
- 采用深度强化学习模型,选择合理的状态与动作空间,将感知到的复杂网络状态,不同种媒体元素的优先级与确定性时延共同组成状态空间, 将多媒体内容块的发送顺序和当前节点的发送速率作为动作空间,以最终的用户QoE指标作为奖励信息,训练出合理的决策链供给策略, 实现对网络资源的最优利用和对网络多媒体内容块的最优引导, 提升用户的服务质量。 可以在系统的资源开销、传输可靠性的基础上获取最优的用户体验。
- 基于用户个性化的延迟敏感度(不同用户,不同视频内容,不同媒体元素),通过元学习框架实现媒体元素调度算法的自适应调整。
B. 模型结构
设计底层网络结构对状态空间进行特征提取,施加注意力机制后分为两个分支,即针对于调度决策与发送速率决策单分别进行学习。
五、项目进度安排
9.05~9.12:重新对比赛仿真器进行学习,修改原仿真器中关于QoE指标的计算
9.13~9.27:设计并完成base模型的搭建,包括模型的结构,输入,奖励函数的设置
9.28~10.12:与环境进行交互训练,对模型进行优化调整
六、已有基础
- 环境部分可使用aitrans比赛的仿真器
- 网络轨迹数据集可以使用比赛数据集,并且数据集已经完成确定性时延的设定
七、预期成果形式,达到的技术指标
- 预期成果:论文一篇(12月底的ICME)
- 技术指标:实现整体性能优于之前比赛的性能。
八、参考文献
[1]Andrews, M.. “Joint Optimization of Scheduling and Congestion Control in Communication Networks.” 2006 40th Annual Conference on Information Sciences and Systems (2006): 1572-1577.
[2]Zhao, Shizhen and Xiaojun Lin. “Rate-control and multi-channel scheduling for wireless live streaming with stringent deadlines.” IEEE INFOCOM 2014 - IEEE Conference on Computer Communications (2014): 1923-1931.
[3]Wang, Xin, Zhaoquan Li and Jie Wu. “Joint TCP Congestion Control and CSMA Scheduling without Message Passing.” IEEE Transactions on Wireless Communications 12 (2013): 6194-6204.
[4]Zuo, Shuai, I.-Hong Hou, Tie Liu, A. Swami and P. Basu. “Joint Rate Control and Scheduling for Real-Time Wireless Networks.” IEEE Transactions on Wireless Communications 16 (2017): 4562-4570.
ireless Networks.” IEEE Transactions on Wireless Communications 16 (2017): 4562-4570.
注:如有任何问题,欢迎留言。
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!