转载

音视频技术开发周刊 | 152

每周一期，纵览音视频技术领域的干货和新闻投稿： contribute@livevideostack.com。

内容推荐

美摄云非编系统——网页端实时编辑渲染方案

美摄云非编是一款新型网页端非线性编辑工具，应用WebAssembly技术实现网页端直接渲染图像。本次LiveVideoStackCon 2020线上峰会我们邀请到了北京美摄网络科技有限公司的研发总监黄裔来做分享，对网页端编辑、WebAssembly技术有兴趣的听众可以从中了解到整个架构的搭建、技术实施、注意事项以及一些常见问题的处理等。

https://mp.weixin.qq.com/s/BtFSK9X0CetIqISFfoq6xw

网易云信流媒体服务端架构设计与实现

实时音视频通话作为高效便捷的沟通手段在许多场景下得到应用。随着5G商用元年的真正到来，实时音视频通话将会得到更加蓬勃的发展。本次LiveVideoStackCon 2020线上峰会我们邀请到了网易云信资深音视频服务端开发工程师鲁林俊，他将结合网易云信流媒体服务搭建的实战经验，进行一些深入的分享。

https://mp.weixin.qq.com/s/u8srSTw_uoI4k2PD6lRxjQ

架构

WebRTC 浏览器和移动设备上的支持情况

点击了解详情。

https://bloggeek.me/webrtc-browser-support/

传输网络

TCP协议相关知识点（流量/拥塞控制）

传输控制协议（TCP，Transimission Control Protocol）：特点是面向连接、可靠性、面向字节流。

https://juejin.im/post/5efc15f0e51d4534bb1495e6#heading-15

实时低延迟流式传输

实时流媒体的低延迟是指事件内容在媒体交付链的一端被捕获并在另一端向用户播放之间的时间延迟。考虑一个在足球比赛中进球的进球：实时等待时间是指从进球打入并由摄像机捕获到观看者在自己的设备上看到该进球之间的时间延迟。

https://mp.weixin.qq.com/s/PveJbv7f3uIWO-5Fn4YDrA

编解码

【重磅】AVS3开源编码器速度再翻倍

AVS3开源编码器项目“天枢”（uAVS3e）不断迭代，自3月份以来又迭代了70余次。AVS互联网生态推进组测试小组近日对最新版本的AVS3开源编码器uAVS3e进行了性能评测，测试结果表明：相比于2020年3月份的版本，uAVS3e编码速度接近翻倍，相比于AVS3标准参考软件（HPM4.0）速度快近50倍，同时综合编码效率提升近5%。

https://mp.weixin.qq.com/s/xWQK1iy0pufmz1L1qXGfmg

FFmpeg获取视频首帧转封面图Bitmap

本博客主要是使用ffmpeg获取本地视频文件的第一帧数据转换为Bitmap，然后抛给上层ImageView显示。

https://juejin.im/post/5f02ec8b6fb9a07e753c8a03

音视频前沿：新一代 AV1 视频标准究竟是怎样一种存在？

AV1是开放媒体联盟Alliance for Open Media (AOM) 开发的第一代视频编码标准，自推出以来获得了产业界巨大关注和支持。腾讯多媒体实验室也加入进来和其他公司团队一同积极推动AV1编码器的优化和落地，为客户提供高性能和高效率的云端编码服务。

https://mp.weixin.qq.com/s/TmnKY78ZQbvfQeBqdDv-qQ

内容感知编码可能是8K交付的关键

本文来自the broadcast bridge，由AMGMedia的Michael Grotticelli编辑，文章主要内容是“内容感知编码可能是成本效益高的8K交付的关键”。

https://mp.weixin.qq.com/s/neYUAmSHzsxykJgedhIkVw

音视频技术

Open WebRTC Toolkit实时视频分析系统

随着物联网技术的发展，实时视频分析技术已应用于智能物联网的各个领域。英特尔基于与GStreamer以及OpenVINO构建了整套实时视频分析方案，为用户提供更加灵活、便捷的实时视频分析服务。本文由英特尔高级软件工程师吴秋娇在LiveVideoStack线上分享内容整理而成。

https://mp.weixin.qq.com/s/2W6sEZN4xTnYAANAl3eRsA

你有没有想过，录屏软件是怎么获取到屏幕内容的？

前段时间 Android R 发布了 Beta 版本，同时带来原生用户心心念念的功能——录屏，虽然这个功能在别的 Android 定制 ROM，像 MIUI，在好几年前已经就有了。是录屏这个功能是很难实现吗？为什么谷歌迟迟不肯在 Android 上这个功能呢？

https://mp.weixin.qq.com/s/HM41Ep__3PCObiElb9MZFQ

在 Javascript 中使用绿屏和 Vonage 视频

创建Vonage Video发布者时，可以直接从用户摄像机，<video>元素或HTML <canvas>元素中获取流。一旦像素被绘制到画布上，就可以在将其用于Video API会话之前轻松对其进行操作。在本教程中，您将学习如何删除绿屏并将其替换为可包含在视频通话中的新的自定义图像。

https://www.nexmo.com/blog/2020/06/24/use-a-green-screen-in-javascript-with-vonage-video

使用 Jitsi 的 getDisplayMedia 进行本地音频录制

本文很好地概述了 getDisplayMedia 和 MediaRecorder。

https://webrtchacks.com/jitsi-recording-getdisplaymedia-audio/

AI智能

通过人工智能技术还原《隐秘的角落》被修改的台词

前两天，我一口气看完了电视剧《隐秘的角落》，剧情相当精彩。美中不足的是，剧组为了让片子过审，导致11集，12集的剪辑顺序被打乱，甚至台词被修改，以至于片中有几个处演员口型与台词对不上，剧情也有点让人摸不到头脑。因此我尝试通过人工智能技术还原了被修改的台词，从而还原了一部分原本的剧情，一个更加黑暗的真相。

https://juejin.im/post/5f0284d05188252e703ab888

情感语音合成技术难点突破与未来展望

语音技术的进步，让机器合成的声音不再顿挫、冰冷，在自然度和可懂度等方面取得了不错的成绩，但当前合成效果在合成音的表现力上，特别是语气和情感方面，还存在不足。声音如果缺少情感，何谈表现力，又如何能提高用户交互的意愿？

https://mp.weixin.qq.com/s/26eySnJMECT_g3fvPMD2VQ

未来社会临场感中的计算机视觉

本文来自Fourth Workshop on ComputerVision for AR/VR 2020的一篇演讲，演讲者是来自Facebook Reality Labs的科学家Michael Abrash。他主要介绍了AR/VR趋势的必然性，以及其中必不可少的CV技术。

https://mp.weixin.qq.com/s/pmdcHShXlEQV7E7-DVRHtg

图像

Google Pixel 相机解密(3) 基于人像的局部畸变矫正

使用手机拍摄时我们都会注意到一个问题就是越近的物体或者越靠近边缘的物体就会被拉伸的很大,这个现象在广角摄像头上更为严重，例如下面两个图像，因此广角镜的拓展形变的效果经常被摄影师利用，创作一些具有戏剧张力的作品：

https://mp.weixin.qq.com/s/SVD_badekd89fN8i5XNZcw

资源推荐

ShuffleNet V1

神经网络的精度越来越高，而推理性能也在逐渐变慢，在实际应用中不得不在性能与准确率间进行折中。为此，论文对小网络的耗时进行分析，提出了ShuffleNet。论文首先介绍了ShuffleNet的核心操作Channel Shuffle以及Group Convolutions，然后再介绍Shuffle unit的结构，最后介绍ShuffleNet的架构。

https://juejin.im/post/5f028ca15188252e654414e9