System, methods, and instrumentalities are disclosed for binarization for clipped feature coding. An example device may receive data that includes a sign indication that indicates a sign associated with an encoded value, and a maximum absolute value indication that indicates whether an absolute value of the encoded value is a maximum absolute value, if the maximum absolute value indication indicates that the absolute value of the encoded value is the maximum absolute value, the device may infer the absolute value of the encoded value. The device may determine the sign associated with the encoded value based on the sign indication. The device may determine a decoded value associated with the encoded value based on the sign indication and the inferred absolute value of the encoded value.
H04N 19/70 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par des aspects de syntaxe liés au codage vidéo, p. ex. liés aux standards de compression
H04N 19/91 - Codage entropique, p. ex. codage à longueur variable ou codage arithmétique
2.
AN ENHANCED FEATURE PROCESSING FOR POINT CLOUD COMPRESSION BASED ON FEATURE DISTRIBUTION LEARNING
Some embodiments of a point cloud geometry method may include a learning-based point cloud geometry method in which the method may include: obtaining a first feature map, wherein the first feature map includes C channels, and wherein the first feature map is generated by one or more preceding neural network layers; generating a first set of distribution parameters using a first set of neural network layers based on the first feature map; transforming the first feature map to a second feature map based on the first set of distribution parameters; and outputting the second feature map to a succeeding neural network layer. For some embodiments of the point cloud geometry method, the first feature map further includes n feature vectors respectively corresponding to n distinct points in 3D space.
H04N 19/597 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif spécialement adapté pour l’encodage de séquences vidéo multi-vues
H04N 19/85 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le pré-traitement ou le post-traitement spécialement adaptés pour la compression vidéo
H04N 19/91 - Codage entropique, p. ex. codage à longueur variable ou codage arithmétique
3.
AN ENHANCED FEATURE PROCESSING FOR IMAGE COMPRESSION BASED ON FEATURE DISTRIBUTION LEARNING
Some embodiments of an image or video processing method may include a learning-based point cloud geometry method in which the method may include: obtaining a first feature map, wherein the first feature map includes C channels, and wherein the first feature map is generated by one or more preceding neural network layers; generating a first set of distribution parameters using a first set of neural network layers based on the first feature map; transforming the first feature map to a second feature map based on the first set of distribution parameters; and outputting the second feature map to a succeeding neural network layer. For some embodiments of the image or video processing method, the first feature map further includes n feature vectors respectively corresponding to n distinct pixels in an image space.
H04N 19/85 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le pré-traitement ou le post-traitement spécialement adaptés pour la compression vidéo
H04N 19/91 - Codage entropique, p. ex. codage à longueur variable ou codage arithmétique
In one implementation, we present a first base-graph based framework that enables a proper disentanglement of mesh geometry and mesh connectivity for the purpose of mesh compression. In particular, we propose an end-to-end learning-based mesh compression network framework WrappingNet, which is able to operate on meshes of different sizes and connectivity while producing useful fixed-length latent representations. Furthermore, when best reconstruction performance is desired (at cost of lower compression) rather than fixed-length codeword compression summarizing the global topology of the mesh, our proposed encoder and decoder modules can be adapted to produce and digest (respectively) a latent feature map living on a low-resolution base mesh.
H04N 19/597 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif spécialement adapté pour l’encodage de séquences vidéo multi-vues
Systems, methods, and instrumentalities are disclosed for performing inference tasks using framework information. Framework information (e.g., artificial intelligence (Al) and/or machine learning (ML) framework information) associated with a processing a model instance may be determined and/or received. For example, framework information may be used to perform an inference task associated with a model. Framework information may be sent to a device to perform distributed processing for inference tasks.
H04N 19/61 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant un codage par transformée combiné avec un codage prédictif
G06N 5/04 - Modèles d’inférence ou de raisonnement
System, methods, and instrumentalities are disclosed for encoding and decoding tensor information for intermediate data. An example device for video encoding may determine tensor metadata associated with intermediate data; encode the intermediate data and the tensor metadata associated with the intermediate data; and send the encoded intermediate data and the encoded tensor metadata to a second device. An example device for video decoding may receive encoded intermediate data and encoded tensor metadata from a second device; decode the encoded intermediate data and the encoded tensor metadata; and reconstruct a tensor based on the intermediate data and the tensor metadata.
H04N 19/70 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par des aspects de syntaxe liés au codage vidéo, p. ex. liés aux standards de compression
Some embodiments of a method may include encoding information describing a haptics experience, wherein the information describing the haptics experience includes one or more adaptation sets, wherein each of the one or more adaptation sets includes one or more representations corresponding to a haptics media track. Some embodiments of a method may include decoding information describing a haptics experience, wherein the information describing the haptics experience includes one or more adaptation sets, wherein each of the one or more adaptation sets includes one or more representations corresponding to a haptics media track.
H04N 21/2343 - Traitement de flux vidéo élémentaires, p. ex. raccordement de flux vidéo ou transformation de graphes de scènes du flux vidéo codé impliquant des opérations de reformatage de signaux vidéo pour la distribution ou la mise en conformité avec les requêtes des utilisateurs finaux ou les exigences des dispositifs des utilisateurs finaux
H04N 21/235 - Traitement de données additionnelles, p. ex. brouillage de données additionnelles ou traitement de descripteurs de contenu
H04N 21/262 - Ordonnancement de la distribution de contenus ou de données additionnelles, p. ex. envoi de données additionnelles en dehors des périodes de pointe, mise à jour de modules de logiciel, calcul de la fréquence de transmission de carrousel, retardement de la transmission de flux vidéo, génération de listes de reproduction
H04N 21/845 - Structuration du contenu, p. ex. décomposition du contenu en segments temporels
H04N 21/8543 - Création de contenu utilisant un langage de description, p. ex. Groupe expert en codage d'information multimedia et hypermedia [MHEG], langage de balisage extensible [XML]
A WTRU may perform inference processing on video data to generate intermediate data. The WTRU may determine from the intermediate data a plurality of tuples and may generate metadata from the plurality of tuples. The metadata may comprise an encoding type that may indicate an encoding algorithm. The metadata may further comprise a length indicating the length of the metadata. The metadata may also comprise an indication of the number of tuples that are comprised in the metadata. The metadata may further comprise the plurality of tuples. Each tuple may comprise a respective layer identifier and tensor shape information. The device may generate a bitstream from the intermediate data and may transmit the bitstream and the metadata to another device which may perform split inference processing on the generated bitstream using the metadata.
H04N 19/70 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par des aspects de syntaxe liés au codage vidéo, p. ex. liés aux standards de compression
Some embodiments of a method (implemented, e.g., by a decoder) may include: obtaining a reference point cloud frame; obtaining a transformation feature map, wherein the transformation feature map describes motion between the reference point cloud frame and a current point cloud frame; determining a predicted point cloud frame in a point-based representation based on the reference point cloud frame and the transformation feature map; determining a predicted feature map based on the predicted point cloud frame, using a point-based encoder neural network; obtaining a current feature map, wherein the current feature map represents the current point cloud frame; and reconstructing the current point cloud frame using a point-based decoder neural network, based on the current feature map, using the predicted feature map as a condition. Some embodiments may encode the current feature frame into a bitstream instead of reconstructing the current point cloud frame.
H04N 19/597 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif spécialement adapté pour l’encodage de séquences vidéo multi-vues
10.
SYNTAX FOR IMAGE/VIDEO COMPRESSION WITH GENERIC CODEBOOK-BASED REPRESENTATION
At least one method and apparatus are presented for efficiently encoding or decoding video, for example human-centric video content. For example, at least one embodiment receiving a bitstream comprising a low-quality representation of at least one region of a sequence of images along with metadata specifying at least one generic codebook-based representation of a generic feature of at least one region of the sequence of images, wherein the at least one generic codebook-based representation allows determining, by a generative branch, a generic feature adapted to a plurality of computer vision tasks; and decoding, from the bitstream, a reconstructed image adapted to a plurality of computer vision tasks including both machine consumption and human consumption. Advantageously, such representation with associated metadata provides, for content such as human-centric video, a generative video coding framework that can be flexibly configured to accommodate both human and machine consumption.
H04N 19/30 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant des techniques hiérarchiques, p. ex. l'échelonnage
H04N 19/167 - Position dans une image vidéo, p. ex. région d'intérêt [ROI]
H04N 19/17 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c.-à-d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p. ex. un objet
H04N 19/187 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c.-à-d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une couche de vidéo échelonnable
H04N 19/70 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par des aspects de syntaxe liés au codage vidéo, p. ex. liés aux standards de compression
11.
GENERATIVE-BASED PREDICTIVE CODING FOR POINT CLOUD COMPRESSION
Some embodiments of a method (implemented, e.g., by a decoder) may include: obtaining a reference point cloud frame; obtaining a transformation feature map, wherein the transformation feature map describes motion between the reference point cloud frame and a current point cloud frame; determining a predicted point cloud frame based on the reference point cloud frame and the transformation feature map; determining a predicted feature map based on the predicted point cloud frame; obtaining a current feature map, wherein the current feature map represents the current point cloud frame; and reconstructing the current point cloud frame, based on the current feature map, using the predicted feature map as a condition. Some embodiments of the method (e.g., implemented by, e.g., an encoder, instead of reconstructing the current point cloud frame, may encode the current feature map into a bitstream using the predicted feature map as a condition.
H04N 19/597 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif spécialement adapté pour l’encodage de séquences vidéo multi-vues
A method for signaling for a PDU set RTP header extension (HE) may comprise negotiating, between an AS and an AF, usage of a RTP HE. The method may comprise generating, by the AF, a RTP HE ID and sending, by the AF to the AS, the RTP HE ID. The method may comprise sending, by the AS to the AF, a RTP HE ID. The method may comprise sending, by the AF to a NEF, usage of the PDU set RTP HE and sending, by the NEF to a PCF, the PDU set RTP HE. The method may comprise constructing, by the PCF, a PCC rule including PDU set RTP HE usage information and sending, by the PCF, the PCC rule to a SMF. The method may comprise sending, by the SMF to the UPF, the PDU set RTP HE usage information.
H04L 65/65 - Protocoles de diffusion en flux de paquets multimédias, p. ex. protocole de transport en temps réel [RTP] ou protocole de commande en temps réel [RTCP]
H04L 65/80 - Dispositions, protocoles ou services dans les réseaux de communication de paquets de données pour prendre en charge les applications en temps réel en répondant à la qualité des services [QoS]
H04L 69/00 - Dispositions, protocoles ou services de réseau indépendants de la charge utile de l'application et non couverts dans un des autres groupes de la présente sous-classe
13.
IMAGE/VIDEO COMPRESSION WITH SCALABLE LATENT REPRESENTATION
At least a method and an apparatus are presented for efficiently encoding or decoding video, for example human-centric video content. For example, at least one embodiment using a scalable latent representation comprising a generic codebook-based representation and a low-quality latent representation of a video. According to another embodiment, the scalable latent representation further comprises a domain-adaptive codebook-based representation. Advantageously, such scalable latent representation provides, for content such as human-centric video, a domain-adaptive and task-adaptive video coding framework that can be flexibly configured to accommodate both human and machine consumption.
H04N 19/33 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant des techniques hiérarchiques, p. ex. l'échelonnage dans le domaine spatial
Methods and apparatuses for encoding/decoding at least one part of an image using context prediction obtained from one or more lower spatial resolutions of a first tensor are disclosed, wherein for at least one sample of the first tensor representative of the at least one part of an image, a first context is obtained from at least one or more samples of at least one second tensor, the at least second tensor being obtained from at least one down-sampling of the first tensor. At least one entropy parameter is determined based on the first context and the first tensor is entropy encoded or decoded using the determined at least one entropy parameter.
H04N 19/13 - Codage entropique adaptatif, p. ex. codage adaptatif à longueur variable [CALV] ou codage arithmétique binaire adaptatif en fonction du contexte [CABAC]
H04N 19/91 - Codage entropique, p. ex. codage à longueur variable ou codage arithmétique
15.
A METHOD AND AN APPARATUS FOR ENCODING/DECODING AT LEAST ONE PART OF AN IMAGE USING ONE OR MORE MULTI-RESOLUTION TRANSFORM BLOCKS
Methods and apparatuses for encoding/decoding at least one part of an image using one or more multi-resolution transform blocks are disclosed, wherein a multi-resolution transform block applies one or more convolution operations to an input to the multi-resolution transform block at different resolutions. In some embodiments, the multi-resolution transform block comprises a first convolution layer applied to the input, at least one down-sampling of the input, at least one second convolution layer applied to the at least one down-sampled input, at least one up-sampling of an output of the at least one second convolution layer, a combination of the at least one up-sampled output and an output of the first convolution layer.
H04N 19/59 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif mettant en œuvre un sous-échantillonnage spatial ou une interpolation spatiale, p. ex. modification de la taille de l’image ou de la résolution
16.
MULTI-RESIDUAL AUTOENCODER FOR IMAGE AND VIDEO COMPRESSION
An end-to-end neural network-based encoding/decoding method is implemented in stages for video codec embodiments. In one embodiment, the codec environment is based on a portion of an image sent to one or more stages of transformations to generate quantized and encoded residuals that form a data stream of tensors. The transformations can be a unique convolution and activation function. The tensors are input to a system to perform decoding of the tensors from the data and transformations and additions or concatenations to regenerate the image.
H04N 19/33 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant des techniques hiérarchiques, p. ex. l'échelonnage dans le domaine spatial
H04N 19/36 - Techniques d'échelonnage mettant en œuvre le formatage des couches en fonction de la distorsion de l’image après décodage, p. ex. échelonnage en fonction du signal sur bruit [RSB]
17.
LEARNING-BASED PREDICTIVE CODING FOR DYNAMIC POINT CLOUDS
In one implementation, we introduce a dynamic point cloud compression (DPCC) architecture which learns how to code each spatial partition (block) based on the nature of the points in the block. A block of current frame that has high correlation to a block in the previous (reference) frame is defined as "inter mode block". Otherwise, the block with less temporal correlation can be defined as an "intra mode block". These blocks combined in one PC frame can improve the coding performance since it simplifies the packing of various residual features in a point cloud (PC) frame. Besides, it can also enhance the quality of reconstruction as a proper feature learning method can be assigned on each block. Moreover, the proposed two-level, block- and frame-level architecture for DPCC and the novel block-level motion compensation subtracted within the feature space help the decoder to more robustly synthesize points.
G06T 17/00 - Modélisation tridimensionnelle [3D] pour infographie
H04N 19/105 - Sélection de l’unité de référence pour la prédiction dans un mode de codage ou de prédiction choisi, p. ex. choix adaptatif de la position et du nombre de pixels utilisés pour la prédiction
H04N 19/107 - Sélection du mode de codage ou du mode de prédiction entre codage prédictif spatial et temporel, p. ex. rafraîchissement d’image
H04N 19/54 - Estimation de mouvement autre que basée sur les blocs utilisant des points ou des maillages caractéristiques
H04N 19/597 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif spécialement adapté pour l’encodage de séquences vidéo multi-vues
18.
AI-BASED VIDEO CONFERENCING USING ROBUST FACE RESTORATION WITH ADAPTIVE QUALITY CONTROL
A video conferencing framework based on face restoration uses information such as pose and expressions instead of using information from different source frames and driving frames. In an embodiment, this information comes from the current target frame. In another embodiment, the proposed system uses a discrete codebook-based representation comprising a generic branch that generates and transmits an integer vector indicating the indices of codewords, from which the decoder retrieves a rich high-quality codebook-based feature based on the same shared codebook with an encoder. An adaptive branch optionally provides additional detailed fidelity and expressive features using a low-quality low-bitrate downsized face input and further aggressively compressed. The low-quality feature is weighted and combined with the high-quality feature for final reconstruction. In another embodiment, an online adaptive learning mechanism adjusts the low-quality input and the combining weight for the adaptive branch on the encoder side at test time.
H04N 19/46 - Inclusion d’information supplémentaire dans le signal vidéo pendant le processus de compression
H04N 19/154 - Qualité visuelle après décodage mesurée ou estimée de façon subjective, p. ex. mesure de la distorsion
H04N 19/17 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c.-à-d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p. ex. un objet
H04N 19/33 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant des techniques hiérarchiques, p. ex. l'échelonnage dans le domaine spatial
H04N 19/59 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif mettant en œuvre un sous-échantillonnage spatial ou une interpolation spatiale, p. ex. modification de la taille de l’image ou de la résolution
Some embodiments of a method may include: accessing a semi-regular input mesh to generate an initial mesh face feature for each mesh face, wherein the semi-regular input mesh comprises a face list and a plurality of vertex positions; generating a base mesh comprising vertex positions and information indicating a base connectivity, along with a set of face features on the base mesh, through a learning-based feature aggregation module; generating a fixed-length codeword based on base face features using a feature pooling module; accessing a predefined template mesh and the base mesh to generate a set of matching indices comprising indices of information indicating matched vertices between the predefined template mesh and the base mesh; and outputting the generated fixed-length codeword, and the information indicating the base connectivity.
Some embodiments of a method may include upsampling a first point cloud using initial upsampling to obtain a second point cloud; associating features of the second point cloud with context information to obtain a third point cloud; predicting occupancy status of at least one voxel of the third point cloud; and removing voxels of the third point cloud that are classified as empty, according to the predicted occupancy status, to generate a pruned point cloud.
H04N 19/13 - Codage entropique adaptatif, p. ex. codage adaptatif à longueur variable [CALV] ou codage arithmétique binaire adaptatif en fonction du contexte [CABAC]
H04N 19/96 - Codage au moyen d'une arborescence, p. ex. codage au moyen d'une arborescence quadratique
H04N 19/97 - Codage par poursuite de correspondances
G06N 3/084 - Rétropropagation, p. ex. suivant l’algorithme du gradient
G06T 9/40 - Codage sous forme arborescente, p. ex. à quatre branches, à huit branches
G06T 17/00 - Modélisation tridimensionnelle [3D] pour infographie
H04N 19/132 - Échantillonnage, masquage ou troncature d’unités de codage, p. ex. ré-échantillonnage adaptatif, saut de trames, interpolation de trames ou masquage de coefficients haute fréquence de transformée
H04N 19/91 - Codage entropique, p. ex. codage à longueur variable ou codage arithmétique
21.
CARRIAGE OF CODED HAPTICS DATA IN MEDIA CONTAINERS
Systems and methods are described for encoding, processing, and/or decoding a container file, such as an ISOBMFF container file, that represents haptic data. A method according to some embodiments includes: obtaining a container file that includes a plurality of haptics tracks, the container file including information associating each of a plurality of the haptics tracks with at least one of a respective device, a respective perception, or a respective avatar; obtaining information indicating a selection of at least one device, at least one perception, or at least one avatar; and extracting haptics data in response to the selection, wherein the extracted haptics data excludes at least one of the plurality of haptics tracks that is not associated with any selected device, perception, or avatar.
G06F 3/01 - Dispositions d'entrée ou dispositions d'entrée et de sortie combinées pour l'interaction entre l'utilisateur et le calculateur
H04N 19/46 - Inclusion d’information supplémentaire dans le signal vidéo pendant le processus de compression
H04N 19/70 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par des aspects de syntaxe liés au codage vidéo, p. ex. liés aux standards de compression
H04N 21/236 - Assemblage d'un flux multiplexé, p. ex. flux de transport, en combinant un flux vidéo avec d'autres contenus ou données additionnelles, p. ex. insertion d'une adresse universelle [URL] dans un flux vidéo, multiplexage de données de logiciel dans un flux vidéoRemultiplexage de flux multiplexésInsertion de bits de remplissage dans le flux multiplexé, p. ex. pour obtenir un débit constantAssemblage d'un flux élémentaire mis en paquets
H04N 21/845 - Structuration du contenu, p. ex. décomposition du contenu en segments temporels
22.
TRAINING METHOD OF AN END-TO-END NEURAL NETWORK BASED COMPRESSION SYSTEM
A method is disclosed that comprises training encoder and decoder neural networks to learn encoder and decoder parameters, wherein the method comprises, during training, quantizing and freezing learned decoder parameters decoding layer per decoding layer at different epochs.
In one implementation, we propose a bitwise octree coding approach based on deep neural networks and operations on 3D sparse tensors. To encode/decode a certain level of detail (LoD) in an octree, geometric features are first inherited from the previous LoD by upsampling. Then based on the already encoded/decoded voxels, the point cloud geometry is firstly refined by pruning, followed by combining with the known context information. In the end, feature aggregation and probability estimation can be applied to obtain the occupancy probabilities for actual arithmetic encoding/decoding. A corresponding probabilistic training strategy is also proposed for our bitwise octree coding approach.
H04N 19/13 - Codage entropique adaptatif, p. ex. codage adaptatif à longueur variable [CALV] ou codage arithmétique binaire adaptatif en fonction du contexte [CABAC]
H04N 19/96 - Codage au moyen d'une arborescence, p. ex. codage au moyen d'une arborescence quadratique
H04N 19/97 - Codage par poursuite de correspondances
G06N 3/084 - Rétropropagation, p. ex. suivant l’algorithme du gradient
G06T 9/40 - Codage sous forme arborescente, p. ex. à quatre branches, à huit branches
G06T 17/00 - Modélisation tridimensionnelle [3D] pour infographie
24.
VIEWPORT AND/OR REGION-OF-INTEREST DEPENDENT DELIVERY OF V3C DATA USING RTP
Viewport- and/or region-of-interest-dependent delivery of V3C data may be performed using RTF, RTP/RTCP signaling may support spatial region based and/or viewport-based partial access of V3C content. An SDP parameter may signal static 3D regions In immersive media content. An RTCP FB message type may carry 3D region of interest request during an RTP media transmission session. An SDP parameter may indicate an RTCP-based ability to request a desired 3D region during capability negotiations. An RTP header extension type may carry transmitted 3D regions information during RTP transmission of immersive media. An SDP parameter may indicate an RTP-based ability to signal transmitted 3D region information during capability negotiations. An SDP parameter may indicate an RTP-based ability to signal updated 3D region information during capability negotiations. An RTCP FB message type may carry viewport information during an RTP media transmission session. An SDP parameter may indicate RTCP-based capability to signal viewport information during capability negotiations.
H04L 65/65 - Protocoles de diffusion en flux de paquets multimédias, p. ex. protocole de transport en temps réel [RTP] ou protocole de commande en temps réel [RTCP]
H04N 21/6437 - Protocole de transmission en temps réel [RTP]
H04N 21/6587 - Paramètres de contrôle, p. ex. commande de lecture à vitesse variable ("trick play") ou sélection d’un point de vue
At least a method and an apparatus are presented for efficiently encoding or decoding video using neural networks wherein the bitstream is adapted to hybrid machine/human vision applications. For example, the scalable decoding comprises applying to a tensor of reconstructed data a neural network-based feature synthesis processing to generate a tensor of input feature representative of a feature of image data samples, resizing the tensor of input feature to generate a tensor of output feature intended to be fed a neural network-based vision inference processing to generate a collection of inference results. Advantageously, resizing the tensor of input feature adapt at least a dimension of the tensor of input feature to the neural network-based vision inference processing.
H04N 19/117 - Filtres, p. ex. pour le pré-traitement ou le post-traitement
H04N 19/33 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant des techniques hiérarchiques, p. ex. l'échelonnage dans le domaine spatial
H04N 19/187 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c.-à-d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une couche de vidéo échelonnable
H04N 19/85 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le pré-traitement ou le post-traitement spécialement adaptés pour la compression vidéo
H04N 19/70 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par des aspects de syntaxe liés au codage vidéo, p. ex. liés aux standards de compression
G06V 10/82 - Dispositions pour la reconnaissance ou la compréhension d’images ou de vidéos utilisant la reconnaissance de formes ou l’apprentissage automatique utilisant les réseaux neuronaux
26.
REINFORCEMENT LEARNING-BASED RATE CONTROL FOR END-TO-END NEURAL NETWORK BSED VIDEO COMPRESSION
An end-to-end neural network-based rate control method based on reinforcement learning implements video codec embodiments. In one embodiment, the codec environment is based on an Asymmetric Gained Variational Auto-Encoder (AG-VAE) architecture. A Reinforcement Learning (RL) agent is implemented through a deep convolutional neural network. In an embodiment, the RL agent conveys a choice of gain vector to the AG-VAE codec and receives reward data from the AG-VAE environment. Rate control is optimized over a period of frames, such as a Group of Pictures (GOP).
H04N 19/147 - Débit ou quantité de données codées à la sortie du codeur selon des critères de débit-distorsion
H04N 19/177 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c.-à-d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant un groupe d’images [GOP]
27.
VIDEO COMPRESSION FOR BOTH MACHINE AND HUMAN CONSUMPTION USING A HYBRID FRAMEWORK
In one implementation, we propose a scalable framework where a base layer uses NN-based methods to compress the content for computer vision machine tasks and enhancement layer(s) use traditional predictive coding for human viewing. Typically, the based layer performs NN-based analysis to generate a latent tensor, which is entropy coded to produce the base layer bitstream. By performing synthesis on the latent tensor, an inter-layer predictor can be obtained for the enhancement layer(s). Since many machine tasks are not required to be performed for each frame, the base layer may skip analysis for some frames. The synthesis may be performed at the base layer or the enhancement layer(s). In one example, the base layer compresses features optimized for a machine task and the enhancement layer(s) rely on predictive coding. In another example, the enhancement layer(s) can use traditional scalable video compression methods.
H04N 19/30 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant des techniques hiérarchiques, p. ex. l'échelonnage
H04N 19/103 - Sélection du mode de codage ou du mode de prédiction
H04N 19/176 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c.-à-d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p. ex. un objet la zone étant un bloc, p. ex. un macrobloc
H04N 19/187 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c.-à-d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une couche de vidéo échelonnable
Some embodiments of a method may include a learning-based point cloud geometry processing block method, the method including: accessing a first feature map, wherein the first feature map has a quantity of C channels and is an input to the processing block, and wherein the first feature map is generated by a first set of neural network layers; accessing a set of distribution parameters; transforming the first feature map to a second feature map based on the set of distribution parameters; and encoding the second feature map into a bitstream. These example processes may be applicable to both the encoder and the decoder of an AI-based point cloud compression (PCC) framework.
A device may access a set of occupancy bits of the neighboring voxels at a current level of detail (LoD) that are already encoded or decoded, using a tree-based point cloud decoder. The device may compute a feature, using a neural network module, based on the accessed voxels. The device may access a deep feature vector from a previous LoD. The device may combine the two features using another neural network module to obtain a new combined feature. The device may concatenate the new combined feature along with the known features of the current voxels to be encoded or decoded to compose a new comprehensive feature. The device may predict the probability distribution of the occupancy of voxels at the current LoD based on the comprehensive feature using yet another neural network module. One or more of the neural network modules may be convolution based neural network modules.
H04N 19/91 - Codage entropique, p. ex. codage à longueur variable ou codage arithmétique
H04N 19/30 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant des techniques hiérarchiques, p. ex. l'échelonnage
In one implementation, we propose an end-to-end image video compression method that decomposes the spatial frequencies of the input content into a partitioned latent representation. Decomposed frequencies in the latent space are analyzed and grouped into separate latent representation or separate tensors, each tensor being jointly optimized to be decoded independently one from another. Therefore, the decoder can independently decode the tensors in a scalable manner to progressively reconstruct the input. This method enables quality scalability by progressively transmitting individual latent representations of decomposed frequency data, separated in the produced latent space. Furthermore, the quality scalability of region of interest (ROI) is enabled by which the decoder takes only corresponding latent representations in the enhancement tensors as input together with latent representations already delivered to the decoder.
H04N 19/63 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant un codage par transformée utilisant une transformée en sous-bandes, p. ex. ondelettes
H04N 19/61 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant un codage par transformée combiné avec un codage prédictif
H04N 19/17 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c.-à-d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p. ex. un objet
H04N 19/167 - Position dans une image vidéo, p. ex. région d'intérêt [ROI]
H04N 19/132 - Échantillonnage, masquage ou troncature d’unités de codage, p. ex. ré-échantillonnage adaptatif, saut de trames, interpolation de trames ou masquage de coefficients haute fréquence de transformée
H04N 19/36 - Techniques d'échelonnage mettant en œuvre le formatage des couches en fonction de la distorsion de l’image après décodage, p. ex. échelonnage en fonction du signal sur bruit [RSB]
A decoding method is presented. At least one high level syntax element is decoded that indicates whether generalized bi-prediction applies for predicting blocks of a slice. A block is then decoded from said slice using generalized bi-prediction in the case where said at least one high level syntax element indicates to apply generalized bi-prediction.
H04N 19/577 - Compensation de mouvement avec interpolation de trame bidirectionnelle, p. ex. utilisation d’images B
H04N 19/176 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c.-à-d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p. ex. un objet la zone étant un bloc, p. ex. un macrobloc
H04N 19/44 - Décodeurs spécialement adaptés à cet effet, p. ex. décodeurs vidéo asymétriques par rapport à l’encodeur
H04N 19/70 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par des aspects de syntaxe liés au codage vidéo, p. ex. liés aux standards de compression
32.
UNSUPERVISED 3D POINT CLOUD DISTILLATION AND SEGMENTATION
In one implementation, we propose an unsupervised point cloud primitive learning method based on the principle of analysis by synthesis. In one example, the method uses a partitioning network and a point cloud autoencoder. The partitioning network partitions an input point cloud into a list of chunks. For each chunk, an encoder network of the autoencoder performs analysis to output a codeword in a feature space, and a decoder network performs synthesis to reconstruct the point cloud chunk. The reconstructed chunks are merged to output a fully reconstructed point cloud frame. By end-to-end training to minimize the mismatch between the original point cloud and the reconstructed point cloud, the autoencoder discovers primitive shapes in the point cloud data. During the network training, the parameters of the partitioning network and the autoencoder are updated. The trained modules can be applied to different applications, including segmentation, detection, and compression.
G06V 10/82 - Dispositions pour la reconnaissance ou la compréhension d’images ou de vidéos utilisant la reconnaissance de formes ou l’apprentissage automatique utilisant les réseaux neuronaux
H04N 19/597 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif spécialement adapté pour l’encodage de séquences vidéo multi-vues
33.
BLOCK-BASED COMPRESSION AND LATENT SPACE INTRA PREDICTION
In one implementation, we propose a block-based end-to-end image and video compression method that takes non-overlapping or overlapping split blocks of input images or frames of videos as input. Then, the proposed decoder network reconstructs non-overlapped split blocks of the input. We also introduce an intra prediction method to reduce spatial redundancy in the latent space, i.e., one or more previously decoded latent tensors from neighboring blocks are used as references to predict the current block's latent tensor. Additionally, the decoder can selectively complete the pixel reconstruction process for decoded latent blocks without causing any error drift to neighboring blocks since the prediction is made in the latent space. Enabling and disabling the pixel reconstruction can be signaled by the encoder as metadata in the bitstream or decided at the decoding stage using a computer vision task.
H04N 19/593 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif mettant en œuvre des techniques de prédiction spatiale
H04N 19/70 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par des aspects de syntaxe liés au codage vidéo, p. ex. liés aux standards de compression
34.
SIGNALING VOLUMETRIC VISUAL VIDEO-BASED CODING CONTENT IN IMMERSIVE SCENE DESCRIPTIONS
The present system and method are directed to volumetric video representation in a scene description. The described systems and methods present a generic design to support V3C/V-PCC content. The systems and methods include the semantics as well as binary representation for decoded V3C/V-PCC media data in the form of buffers which may be used by the presentation engine for reconstruction and rendering.
H04N 21/234 - Traitement de flux vidéo élémentaires, p. ex. raccordement de flux vidéo ou transformation de graphes de scènes du flux vidéo codé
H04N 21/44 - Traitement de flux élémentaires vidéo, p. ex. raccordement d'un clip vidéo récupéré d'un stockage local avec un flux vidéo en entrée ou rendu de scènes selon des graphes de scène du flux vidéo codé
H04N 21/443 - Procédés de système d'exploitation, p. ex. démarrage d'un boîtier décodeur STB, implémentation d'une machine virtuelle Java dans un boîtier décodeur STB ou gestion d'énergie dans un boîtier décodeur STB
In one implementation, we propose a lossy point cloud compression scheme to encode point cloud geometry with deep neural networks. The encoder first encodes a coarser version of the input point cloud as a bitstream. Then it represents the residual (fine geometry details) of the input point cloud as pointwise features of the encoded coarser point cloud, followed by encoding the features as the second bitstream. On the decoder side, the coarser point cloud is firstly decoded from the first bitstream. Then its pointwise features are decoded. In the end, the residual is decoded from the pointwise features and added back to the coarser point cloud, leading to a high-quality decoded point cloud. The encoding and/or decoding of the features can be further augmented with feature aggregation, such as transformer blocks.
H04N 19/33 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant des techniques hiérarchiques, p. ex. l'échelonnage dans le domaine spatial
36.
COORDINATE REFINEMENT AND UPSAMPLING FROM QUANTIZED POINT CLOUD RECONSTRUCTION
Systems, methods, and instrumentalities are disclosed for coordinate refinement and/or up- sampling from quantized point cloud reconstruction. In examples, point-based coordinate refinement may be provided. An after-decoder point cloud refinement module may include one or more of the following. The module may include accessing a decoded quantized version of a point cloud. The module may include accessing and/or fetching point(s) within a neighborhood area of each of the point(s). A feature may be computed using a point-based neural network module, for example, based on the three-dimensional (3D) (e.g., or KD) location(s) of the fetched points, e.g., that summarizes the details (e.g., intricate details). A refinement offset for the current, point may be predicted based on the comprehensive featuring using a fully connected (FC) module.
H04N 19/90 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant des techniques de codage non prévues dans les groupes , p. ex. les fractales
37.
TEMPORAL ATTENTION-BASED NEURAL NETWORKS FOR VIDEO COMPRESSION
Systems, methods, and instrumentalities are disclosed for video encoding and/or video decoding using artificial neural networks (e.g., convolutional neural networks or recurrent neural networks), attention, and/or attention with spatial attributes. For example, an apparatus may be configured to perform one or more of the following: obtaining a context block, a current block, and a latent vector associated with the context block; performing at least one convolution on the context block, the reference block, and the latent vector; generating motion flow data associated with the current block based on the at least one convolution; or generating a bitstream the comprises an indication of the motion flow data. The motion flow data may be quantized. The generated bitstream may comprise an indication of the quantized motion flow data.
H04N 19/503 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif mettant en œuvre la prédiction temporelle
38.
VIEWPORT-BASED AND REGION-OF-INTEREST-BASED RETRIEVAL OF MEDIA OBJECTS IN SCENE RENDERING ENGINES
A device may receive information associated with a piuraiity of cameras where each of the cameras has an associated camera object. The device may associate a first camera object with a first viewer. The first camera object may have associated first extrinsic properties and associated first intrinsic properties. The device may associate a second camera object with a second viewer. The second camera object may have associated second extrinsic properties and associated second intrinsic properties. The device may send a registration request to a Media Access Function (MAF) where the registration request identifies the first camera object and the second camera object. The first viewer and the second viewer may update their preferred views of media content, in response, the device may send an update request to the MAF, where the request comprises updated information associated with the first camera object and updated information associated with the second camera object.
In one implementation, we propose a hybrid architecture to compress and decompress a point cloud. In particular, a first decoding block is for the most significant bits, typically coded by a tree-based coding method. A second decoding block is for the middle-range of bits, typically coded by a voxel-based method. A third decoding block is for the least significant bits, typically coded by a point-based method. For example, the decoder configures the decoder's network according to the total number of bits and the bit partitioning positions; decodes a coarse point cloud and its associated point-wise features using a tree-based decoding block; upsamples the coarse point cloud to a denser one and updates the point-wise features using a voxel-based decoding block; and refines the precision of the coordinates of the dense but low bit depth point cloud to high bit depth point cloud using a point-based decoding block.
H04N 19/33 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant des techniques hiérarchiques, p. ex. l'échelonnage dans le domaine spatial
H04N 19/34 - Techniques d'échelonnage mettant en œuvre un codage progressif par plans de bits de la couche d'amélioration, p. ex. échelonnage granulaire fin [FGS]
H04N 19/96 - Codage au moyen d'une arborescence, p. ex. codage au moyen d'une arborescence quadratique
H04N 19/132 - Échantillonnage, masquage ou troncature d’unités de codage, p. ex. ré-échantillonnage adaptatif, saut de trames, interpolation de trames ou masquage de coefficients haute fréquence de transformée
H04N 19/187 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c.-à-d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une couche de vidéo échelonnable
H04N 19/119 - Aspects de subdivision adaptative, p. ex. subdivision d’une image en blocs de codage rectangulaires ou non
40.
CONCAVITY-BASED GROUPING FOR UNORGANIZED 3D POINT CLOUD SEGMENTATION AND ABSTRACTION
Points are grouped from a point cloud using Concavity-induced Distance (CID). First, a set of seed points is sampled from the input point cloud. Then a grouping of points is conducted based on a nearest neighbor search computed using CID. These two steps enable two novel solutions in point cloud segmentation and scene abstraction. In one embodiment, CID is determined between two points residing within an object surface. In a second embodiment, a CID is determined between groups of points.
G06T 7/187 - DécoupageDétection de bords impliquant des croissances de zonesDécoupageDétection de bords impliquant des fusions de zonesDécoupageDétection de bords impliquant un étiquetage de composantes connexes
41.
LEARNING-BASED POINT CLOUD COMPRESSION VIA ADAPTIVE POINT GENERATION
In one implementation, we propose an adaptive point generation mechanism that can control the number of output points, for example, to have it matched exactly to the number of input points. The proposed method can be used in folding-based point cloud compression systems. In one example, using FPS (Farthest Point Sampling), we propose the adaptive grid generator, which provides control over the number of points in the reconstructed point cloud. Given an input point cloud, a pre-defined 2D grid is sampled using FPS procedure with the number of input points controlling the number of samples. On one hand, this enables lossless reconstruction of point clouds which is useful for storage and several real-world applications. On the other hand, having control over the number of output points also opens avenues to machine and vision applications such as hierarchical processing, super-resolution, summarization, of point clouds.
Methods and apparatuses for decoding and encoding point cloud data are described herein. A method may include accessing point cloud data compressed based on a tree structure. The method may further comprise fetching points in a neighborhood associated with a current node of the tree structure, and computing a feature using a point-based neural network module, based on three-dimensional (3D) locations of the fetched points. The method may include predicting, using a neural network module, an occupancy symbol distribution for the current node based on the feature, and determining the occupancy for the current node from the encoded bitstream and the predicted occupancy symbol distribution. The method may include computing another feature using a convolution-based neural network module, based on a voxelized version of the fetched points, and fusing the feature and the another feature with one or more known features of a current node to compose a comprehensive feature.
H04N 19/13 - Codage entropique adaptatif, p. ex. codage adaptatif à longueur variable [CALV] ou codage arithmétique binaire adaptatif en fonction du contexte [CABAC]
H04N 19/184 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c.-à-d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant des bits, p. ex. de flux vidéo compressé
H04N 19/593 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif mettant en œuvre des techniques de prédiction spatiale
H04N 19/91 - Codage entropique, p. ex. codage à longueur variable ou codage arithmétique
G06T 9/40 - Codage sous forme arborescente, p. ex. à quatre branches, à huit branches
43.
METHOD AND APPARATUS FOR POINT CLOUD COMPRESSION USING HYBRID DEEP ENTROPY CODING
Methods and apparatuses for decoding and encoding point cloud data are described herein. A method may include accessing point cloud data compressed based on a tree structure. The method may further comprise fetching points in a neighborhood associated with a current node of the tree structure, and computing a feature using a point-based neural network module, based on three-dimensional (3D) locations of the fetched points. The method may include predicting, using a neural network module, an occupancy symbol distribution for the current node based on the feature, and determining the occupancy for the current node from the encoded bitstream and the predicted occupancy symbol distribution. The method may include computing another feature using a convolution-based neural network module, based on a voxelized version of the fetched points, and fusing the feature and the another feature with one or more known features of a current node to compose a comprehensive feature.
H04N 19/13 - Codage entropique adaptatif, p. ex. codage adaptatif à longueur variable [CALV] ou codage arithmétique binaire adaptatif en fonction du contexte [CABAC]
H04N 19/184 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c.-à-d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant des bits, p. ex. de flux vidéo compressé
H04N 19/593 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif mettant en œuvre des techniques de prédiction spatiale
H04N 19/91 - Codage entropique, p. ex. codage à longueur variable ou codage arithmétique
An apparatus may be configured to determine a reference picture listed in a first reference picture list and a reference picture listed in a second reference picture list, for a coding block. The apparatus may be configured to determine whether to perform bi-directional optical flow (BDOF) for the coding block based at least in part on whether a distance between a picture associated with the coding block and the reference picture listed in the first reference picture list differs from a distance between the picture associated with the coding block and the reference picture listed in the second reference picture list. The apparatus may be configured to decode the coding block based on the determination of whether to perform BDOF for the coding block.
H04N 19/105 - Sélection de l’unité de référence pour la prédiction dans un mode de codage ou de prédiction choisi, p. ex. choix adaptatif de la position et du nombre de pixels utilisés pour la prédiction
H04N 19/117 - Filtres, p. ex. pour le pré-traitement ou le post-traitement
H04N 19/132 - Échantillonnage, masquage ou troncature d’unités de codage, p. ex. ré-échantillonnage adaptatif, saut de trames, interpolation de trames ou masquage de coefficients haute fréquence de transformée
H04N 19/137 - Mouvement dans une unité de codage, p. ex. différence moyenne de champs, de trames ou de blocs
H04N 19/176 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c.-à-d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p. ex. un objet la zone étant un bloc, p. ex. un macrobloc
45.
LINEAR NEURAL RECONSTRUCTION FOR DEEP NEURAL NETWORK COMPRESSION
A method and apparatus for performing deep neural network compression of convolutional and fully connected layers using a linear approximation of their outputs with information, such as in matrices representing weights, biases and non-linearities, to iteratively compress a pre-trained deep neural network by low displacement rank based approximation of the network layer weight matrices. Extension of the technique enables consecutive layers to be compressed jointly, allowing compression and speeding inference by reducing the number of channels/hidden neurons in the network.
A method and system are provided for processing image content. In one embodiment the method comprises receiving a plurality of captured contents showing same scene as captured by one or more cameras having a different focal length and depth maps and generating a consensus cube by obtaining depth map estimations from said received contents. The visibility of different objects in then analysed to create a soft visibility cube that provides visibility information about each content. A color cube is then generated by using information from the consensus and soft visibility cube. The color cube is then used to combine different received contents and generate a single image for the plurality of contents received.
A method for decoding or encoding comprising: obtaining (140) views parameters for a set of views comprising at least one reference view and a current view of a multi-views video content wherein each view comprises a texture layer and a depth layer; for at least one couple of a reference view and the current view of the set of views, generating (141) an intermediate prediction image applying a forward projection method to pixels of the reference view to project these pixels from a camera coordinates system of the reference view to a camera coordinates system of the current view, the prediction image comprising information allowing reconstructing image data; storing (143) at least one final prediction image obtained from at least one intermediate prediction image in a buffer of reconstructed images of the current view; reconstructing (144) a current image of the current view from the images stored in said buffer, said buffer comprising said at least one final prediction image.
H04N 19/597 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif spécialement adapté pour l’encodage de séquences vidéo multi-vues
H04N 19/80 - Détails des opérations de filtrage spécialement adaptées à la compression vidéo, p. ex. pour l'interpolation de pixels
In one implementation, a picture is partitioned into multiple blocks, with uniform or different block sizes. Each block is compressed by an auto-encoder, which may comprise a deep neural network and entropy encoder. The compressed block may be reconstructed or decoded with another deep neural network. Quantization may be used in the encoder side, and de-quantization at the decoder side. When the block is encoded, neighboring blocks may be used as causal information. Latent information can also be used as input to a layer at the encoder or decoder. Vertical and horizontal position information can further be used to encode and decode the image block. A secondary network can be applied to the position information before it is used as input to a layer of the neural network at the encoder or decoder. To reduce blocking artifact, the block may be extended before being input to the encoder.
H04N 19/90 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant des techniques de codage non prévues dans les groupes , p. ex. les fractales
H04N 19/176 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c.-à-d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p. ex. un objet la zone étant un bloc, p. ex. un macrobloc
G06N 3/04 - Architecture, p. ex. topologie d'interconnexion
49.
METHODS AND APPARATUSES FOR ENCODING, DECODING AND RENDERING 6DOF CONTENT FROM 3DOF+ COMPOSED ELEMENTS
A volumetric content is encoded as a set of clusters by an encoder and transmitted to a decoder which retrieves the volumetric content. Clusters common to different viewpoints are obtained and mutualized. Clusters are projected onto 2D images and encoded as independent video streams. Reduction in visual artefacts and reduction of data for storage and streaming are achieved.
H04N 19/597 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif spécialement adapté pour l’encodage de séquences vidéo multi-vues
H04N 19/20 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage d'objets vidéo
H04N 19/46 - Inclusion d’information supplémentaire dans le signal vidéo pendant le processus de compression
A method for encoding a volumetric video content representative of a 3D scene is disclosed. The method comprises obtaining a reference viewing box and an intermediate viewing box defined within the 3D scene. For the reference viewing bounding box, the volumetric video reference subcontent is encoded as a central image and peripheral patches for parallax. For the intermediate viewing bounding box, the volumetric video intermediate sub-content is encoded as intermediate central patches which are differences between the intermediate central image and the reference central image.
H04N 19/597 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif spécialement adapté pour l’encodage de séquences vidéo multi-vues
An improvement in coding efficiency is achieved through restrictions on successive divisions of asymmetric splitting in advanced video coding algorithms, which frequently rely on splitting of a block of video data prior to coding using several transform sizes. Successive divisions of asymmetric splitting are forbidden if an equivalent split can be attained using triple splitting. In an embodiment, a video block is split using successive splits, but the second type of split is dependent on the first type of split.
H04N 19/122 - Sélection de la taille de la transformée, p. ex. 8x8 ou 2x4x8 TCDSélection de transformées en sous-bandes de structure ou de type variable
H04N 19/119 - Aspects de subdivision adaptative, p. ex. subdivision d’une image en blocs de codage rectangulaires ou non
H04N 19/176 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c.-à-d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p. ex. un objet la zone étant un bloc, p. ex. un macrobloc
G06T 9/40 - Codage sous forme arborescente, p. ex. à quatre branches, à huit branches
H04N 19/70 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par des aspects de syntaxe liés au codage vidéo, p. ex. liés aux standards de compression
52.
VIDEO COMPRESSION BASED ON LONG RANGE END-TO-END DEEP LEARNING
At least a method and an apparatus are presented for efficiently encoding or decoding video. For example, a plurality of frames is provided to a motion estimator to produce an output comprising estimated motion information. The estimated motion information is provided to an auto-encoder or an auto-decoder to produce an output comprising reconstructed motion field. The reconstructed motion field and one or more decoded frames of the plurality of frames are provided to a deep neural network to produce an output comprising refined bi-directional motion field. The video is encoded or decoded based on the refined bi-directional motion field.
Methods, apparatuses and streams are disclosed for transmitting tiled volumetric video and, at the receiver, for generating an atlas image compatible with a legacy decoder. At the server side, viewport information is obtained and a first list of central tiles and a second list of border tiles are selected. A central tile is a part of an image obtained by projecting the 3D scene onto an image plane according to a central point of view. A border tile is an image comprising dis-occluding patches. Sizes and shapes of border tiles are function of size and shape of central tiles. At the client side, tiles are arranged according to a layout selected in a set of layouts according to the number, sizes and shapes of border tiles.
H04N 19/597 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif spécialement adapté pour l’encodage de séquences vidéo multi-vues
H04N 13/161 - Encodage, multiplexage ou démultiplexage de différentes composantes des signaux d’images
54.
METHOD AND APPARATUS FOR VIDEO ENCODING AND DECODING WITH MATRIX BASED INTRA-PREDICTION
Different implementations are described, particularly implementations for video encoding and decoding based on linear weighted intra prediction, also called matrix based intra prediction, are presented. Accordingly, the encoding or decoding comprises obtaining intra predicted samples of a block from a selected weight matrix and associated bias and from a set of neighboring reference samples; wherein any coefficient of the selected weight matrix is a power of two. According to relaxed version, not all but only a part of the coefficients of the selected weight matrix is a power of two. Advantageously, such arrangement allows to reduce the amount of memory for storing data and to reduce the complexity of the intra prediction samples computation.
H04N 19/593 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif mettant en œuvre des techniques de prédiction spatiale
H04N 19/463 - Inclusion d’information supplémentaire dans le signal vidéo pendant le processus de compression par compression des paramètres d’encodage avant la transmission
H04N 19/42 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par les détails de mise en œuvre ou le matériel spécialement adapté à la compression ou à la décompression vidéo, p. ex. la mise en œuvre de logiciels spécialisés
55.
A METHOD AND APPARATUS FOR DELIVERING A VOLUMETRIC VIDEO CONTENT
Methods, devices and data stream are provided for signaling and decoding information representative of restrictions of navigation in a volumetric video. The data stream comprises metadata associated to video data representative of the volumetric video. The metadata comprise data representative of a viewing bounding box, data representative of a curvilinear path in the 3D space of said volumetric video; and data representative of at least one viewing direction range associated with a point on the curvilinear path.
Different implementations are described, particularly implementations for video encoding and decoding based on linear weighted intra prediction, also called matrix based intra prediction, are presented. Accordingly, for a block being encoded or decoded in linear weighted intra prediction, obtaining intra predicted samples from at least two matrix-vector products between at least two selected weight matrices of reduced size and a set of neighboring reference samples. Advantageously, such arrangement allows to reduce the amount of memory for storing data and to reduce the complexity of the intra prediction samples computation.
H04N 19/593 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif mettant en œuvre des techniques de prédiction spatiale
H04N 19/463 - Inclusion d’information supplémentaire dans le signal vidéo pendant le processus de compression par compression des paramètres d’encodage avant la transmission
H04N 19/42 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par les détails de mise en œuvre ou le matériel spécialement adapté à la compression ou à la décompression vidéo, p. ex. la mise en œuvre de logiciels spécialisés
57.
METHODS FOR TRANSMITTING AND RENDERING A 3D SCENE, METHOD FOR GENERATING PATCHES, AND CORRESPONDING DEVICES AND COMPUTER PROGRAMS
The disclosure discloses methods and devices for transmitting and rendering a 3D scene. The method for transmitting comprises: segmenting a space into m angular sectors, the m angular sectors each corresponding to an angular distance from a viewport, and the space into n depth ranges; obtaining (11) at least one first patch, generated from a first view of the 3D scene, said at least one first patch comprising a texture component and a depth component; obtaining (12) at least one atlas, generated from at least one second view of the 3D scene, said at least one atlas being built by packing together at least one second patch generated for at least one point of one of said second view that is not visible in another view of the 3D scene and that belongs to a same angular sector among the m angular sectors, and a same depth range among the n depth ranges, at least one of m or n being greater than or equal to 2, said at least one second patch comprising a texture component and a depth component, wherein each of the at least one first patch and the at least one second patch is based on at least one of a sector and a depth; generating (13) a first subset of streams comprising m' pairs of streams and a second subset of streams comprising m' x n' pairs of streams; and transmitting (14) the first and second subsets of streams to the terminal.
H04N 19/597 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif spécialement adapté pour l’encodage de séquences vidéo multi-vues
H04N 13/161 - Encodage, multiplexage ou démultiplexage de différentes composantes des signaux d’images
Methods (800, 900, 1600, 1700) and apparatuses (2100) for signaling decoding data in a video bitstream, wherein one uses a syntax element indicating whether the decoding data are explicitly coded in the video bitstream or inferred from previous data of the video bitstream. A bitstream, a computer- readable storage medium and a computer program product are also described.
H04N 19/70 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par des aspects de syntaxe liés au codage vidéo, p. ex. liés aux standards de compression
59.
METHOD AND APPARATUS FOR SIGNALING DECODING DATA USING HIGH LEVEL SYNTAX ELEMENTS
Methods (800, 900, 1600, 1700) and apparatuses (2100) for signaling decoding data in a video bitstream, wherein one uses a syntax element indicating whether the decoding data are explicitly coded in the video bitstream or inferred from previous data of the video bitstream. A bitstream, a computer- readable storage medium and a computer program product are also described.
H04N 19/70 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par des aspects de syntaxe liés au codage vidéo, p. ex. liés aux standards de compression
H04N 19/50 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif
H04N 19/174 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c.-à-d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p. ex. un objet la zone étant une tranche, p. ex. une ligne de blocs ou un groupe de blocs
60.
HIGH LEVEL SYNTAX FOR CONTROLLING THE TRANSFORM DESIGN
Different implementations are described, particularly implementations for video encoding and decoding are presented. Accordingly, the encoding or decoding comprises obtaining at least one syntax element related to enabling multiple transform selection MTS and, based on the at least one syntax element, obtaining a horizontal transform or a vertical transform used in a transform method to apply to a block of residue. According to a particular characteristic, in an Intra Sub Partitioning ISP or a Sub Block Transform SBT, the horizontal transform and vertical transform of a transform method are set to the core transform DCT2 in case said at least one syntax element disables the multiple transform selection. According to another embodiment, the controlling of the use of non-separable secondary transform is also described.
H04N 19/12 - Sélection parmi plusieurs transformées ou standards, p. ex. sélection entre une transformée en cosinus discrète [TCD] et une transformée en sous-bandes ou sélection entre H.263 et H.264
H04N 19/46 - Inclusion d’information supplémentaire dans le signal vidéo pendant le processus de compression
H04N 19/625 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant un codage par transformée utilisant une transformée en cosinus discrète
H04N 19/159 - Type de prédiction, p. ex. prédiction intra-trame, inter-trame ou de trame bidirectionnelle
H04N 19/70 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par des aspects de syntaxe liés au codage vidéo, p. ex. liés aux standards de compression
61.
METHOD AND APPARATUS FOR ENCODING A BLOCK AND DECODING BASED ON ILLUMINATION COMPENSATION
Methods (800, 1600, 1700) and apparatuses (1800) for video coding and decoding are provided. The method (800, 1600, 1700) includes deriving one or more illumination compensation parameters based on neighboring samples of a sub-block of a block and neighboring samples of a motion- compensated reference sub-block; deriving a prediction sub-block by applying on the motion-compensated reference sub-block an illumination compensation using the one or more derived illumination compensation parameters. A computer-readable storage medium and a computer program product are also described.
A video codec can involve determining a motion compensation mode associated with encoding a first block of picture information, the motion compensation mode including a sub-block based motion compensation prediction mode or a non-rectangular block partition mode; determining that a second block of picture information spatially neighboring the first block was encoded or decoded based on an illumination compensation; and encoding or decoding the first block based on the motion compensation mode and the illumination compensation.
H04N 19/117 - Filtres, p. ex. pour le pré-traitement ou le post-traitement
H04N 19/136 - Caractéristiques ou propriétés du signal vidéo entrant
H04N 19/176 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c.-à-d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p. ex. un objet la zone étant un bloc, p. ex. un macrobloc
H04N 19/51 - Estimation ou compensation du mouvement
H04N 19/537 - Estimation de mouvement autre que basée sur les blocs
H04N 19/80 - Détails des opérations de filtrage spécialement adaptées à la compression vidéo, p. ex. pour l'interpolation de pixels
63.
TRANSFORM SELECTION FOR IMPLICIT MULTIPLE TRANSFORM SELECTION
A method and apparatus to improve compression efficiency in a video compression scheme enables use of new tools with multiple transform selection. In one embodiment, transform pair selection is based on a flag indicative of low-frequency non-separable transforms. In another embodiment, transform pair selection is based on a flag indicative of low-frequency non-separable transforms and on a flag indicative of matrix-based intra prediction. In another embodiment, when an implicit multiple transform selection mode is used, transform pair selection is based on a flag indicative of low-frequency non-separable transforms. Bitstream syntax is used to convey the flags.
H04N 19/122 - Sélection de la taille de la transformée, p. ex. 8x8 ou 2x4x8 TCDSélection de transformées en sous-bandes de structure ou de type variable
H04N 19/119 - Aspects de subdivision adaptative, p. ex. subdivision d’une image en blocs de codage rectangulaires ou non
H04N 19/157 - Mode de codage attribué, c.-à-d. le mode de codage étant prédéfini ou présélectionné pour être utilisé ultérieurement afin de sélectionner un autre élément ou paramètre
H04N 19/176 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c.-à-d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p. ex. un objet la zone étant un bloc, p. ex. un macrobloc
H04N 19/625 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant un codage par transformée utilisant une transformée en cosinus discrète
H04N 19/70 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par des aspects de syntaxe liés au codage vidéo, p. ex. liés aux standards de compression
64.
TRANSFORM SELECTION FOR IMPLICIT MULTIPLE TRANSFORM SELECTION
A method and apparatus to improve compression efficiency in a video compression scheme enables use of new tools with multiple transform selection. In one embodiment, transform pair selection is based on a flag indicative of low-frequency non-separable transforms. In another embodiment, transform pair selection is based on a flag indicative of low-frequency non-separable transforms and on a flag indicative of matrix-based intra prediction. In another embodiment, when an implicit multiple transform selection mode is used, transform pair selection is based on a flag indicative of low-frequency non-separable transforms. Bitstream syntax is used to convey the flags.
H04N 19/122 - Sélection de la taille de la transformée, p. ex. 8x8 ou 2x4x8 TCDSélection de transformées en sous-bandes de structure ou de type variable
H04N 19/119 - Aspects de subdivision adaptative, p. ex. subdivision d’une image en blocs de codage rectangulaires ou non
H04N 19/157 - Mode de codage attribué, c.-à-d. le mode de codage étant prédéfini ou présélectionné pour être utilisé ultérieurement afin de sélectionner un autre élément ou paramètre
H04N 19/176 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c.-à-d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p. ex. un objet la zone étant un bloc, p. ex. un macrobloc
H04N 19/625 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant un codage par transformée utilisant une transformée en cosinus discrète
H04N 19/70 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par des aspects de syntaxe liés au codage vidéo, p. ex. liés aux standards de compression
65.
A METHOD AND APPARATUS FOR DECODING THREE-DIMENSIONAL SCENES
Generating an image from a source image can involve encoding a projection of a part of a three-dimensional scene. Pixels of a source image comprise a depth and a color attribute. Pixels of a source image are de-projected as colored point cloud. A de-projected point in a 3D space has the color attribute of the pixel that it has been de-projected from. Also, a score is attributed to the generated point according to a local depth gradient and/or a local color gradient of the pixel it comes from, the lower the gradient, the higher the score. The generated point cloud is captured by a virtual camera for rendering on a display device. The point cloud is projected onto the viewport image by blending color of points projected on a same pixel, the blending being weighted by the scores of these points.
A method and apparatus for performing deep neural network compression of convolutional and fully connected layers using a linear approximation of their outputs with information, such as in matrices representing weights, biases and non-linearities, to iteratively compress a pre-trained deep neural network by low displacement rank based approximation of the network layer weight matrices. Extension of the technique enables consecutive layers to be compressed jointly, allowing compression and speeding inference by reducing the number of channels/hidden neurons in the network.
Encoding or decoding picture information can involve determining a first scaling factor varying with a first granularity to scale a chroma prediction residual associated with chroma information included in the picture information; determining a second scaling factor varying with a second granularity finer than the first granularity; scaling the chroma prediction residual 5 based on a combination of the first scaling factor and the second scaling factor to provide a scaled chroma prediction residual with the second granularity; and encoding or decoding at least a portion of the picture information based on the scaled chroma prediction residual.
H04N 19/186 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c.-à-d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une couleur ou une composante de chrominance
H04N 19/50 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif
H04N 19/82 - Détails des opérations de filtrage spécialement adaptées à la compression vidéo, p. ex. pour l'interpolation de pixels mettant en œuvre le filtrage dans une boucle de prédiction
H04N 19/80 - Détails des opérations de filtrage spécialement adaptées à la compression vidéo, p. ex. pour l'interpolation de pixels
H04N 19/117 - Filtres, p. ex. pour le pré-traitement ou le post-traitement
H04N 19/46 - Inclusion d’information supplémentaire dans le signal vidéo pendant le processus de compression
H04N 19/70 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par des aspects de syntaxe liés au codage vidéo, p. ex. liés aux standards de compression
68.
HIGH LEVEL SYNTAX SIMPLIFIED VIDEO CODING TOOL SET FOR SMALL BLOCKS
A coding tool set enablement scheme allows one or more coding tools to be used in the encoding or decoding of video data based on one or more characteristics related to the video. In one embodiment, some coding tools are enabled for block sizes below a particular threshold. In another embodiment, a group of coding tools are enabled based on one flag for blocks having a particular characteristic. In another embodiment, these flags are included in a bitstream with the video. In another embodiment, at least one of the flags are inferred to enable some coding tools.
H04N 19/102 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’élément, le paramètre ou la sélection affectés ou contrôlés par le codage adaptatif
H04N 19/105 - Sélection de l’unité de référence pour la prédiction dans un mode de codage ou de prédiction choisi, p. ex. choix adaptatif de la position et du nombre de pixels utilisés pour la prédiction
H04N 19/109 - Sélection du mode de codage ou du mode de prédiction parmi plusieurs modes de codage prédictif temporel
H04N 19/117 - Filtres, p. ex. pour le pré-traitement ou le post-traitement
H04N 19/136 - Caractéristiques ou propriétés du signal vidéo entrant
H04N 19/176 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c.-à-d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p. ex. un objet la zone étant un bloc, p. ex. un macrobloc
H04N 19/577 - Compensation de mouvement avec interpolation de trame bidirectionnelle, p. ex. utilisation d’images B
69.
FRAMEWORK FOR CODING AND DECODING LOW RANK AND DISPLACEMENT RANK-BASED LAYERS OF DEEP NEURAL NETWORKS
A method and apparatus for conveying information in a bitstream for deep neural network compression, such as in matrices representing weights, biases and non-linearities, to iteratively compress a pre-trained deep neural network by low displacement rank based approximation of the network layer weight matrices. The low displacement rank approximation allows for replacement of an original layer weight matrices of the pre-trained deep neural network as the sum of small number of structured matrices, allowing compression and low inference complexity. A decoder stage parses a bitstream for inference.
H04N 19/13 - Codage entropique adaptatif, p. ex. codage adaptatif à longueur variable [CALV] ou codage arithmétique binaire adaptatif en fonction du contexte [CABAC]
H04N 19/30 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant des techniques hiérarchiques, p. ex. l'échelonnage
H04N 19/70 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par des aspects de syntaxe liés au codage vidéo, p. ex. liés aux standards de compression
G06N 3/04 - Architecture, p. ex. topologie d'interconnexion
70.
METHOD AND APPARATUS FOR VIDEO ENCODING AND DECODING WITH OPTICAL FLOW BASED ON BOUNDARY SMOOTHED MOTION COMPENSATION
Different implementations are described, particularly implementations for video encoding and decoding are presented. According to an implementation, in a method for encoding or decoding a part of an image, an inter-prediction refinement of the image block using optical flow based on boundary smoothed motion compensation is performed. The inter-prediction refinement of the image block further comprises obtaining a motion information for the block, a motion information for the top neighboring block, a motion information for the left neighboring block; and applying an optical flow based on a weighted sum of the obtained motion information to refine the prediction for the block. Advantageously, the refined inter- prediction is applied on boundary sub-blocks of the causal border of the image block or on any sub-block of the image block at a sub-block level if the image block has sub-block motion field.
H04N 19/583 - Compensation de mouvement par blocs se chevauchant
H04N 19/86 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le pré-traitement ou le post-traitement spécialement adaptés pour la compression vidéo mettant en œuvre la diminution des artéfacts de codage, p. ex. d'artéfacts de blocs
H04N 19/55 - Estimation de mouvement avec contraintes spatiales, p. ex. au niveau des contours de l’image ou des contours des régions
H04N 19/46 - Inclusion d’information supplémentaire dans le signal vidéo pendant le processus de compression
A method and apparatus for performing prediction for encoding or decoding uses intra prediction with sub-partitions. The sub-partitions are oriented either horizontally or vertically and can use wide-angle modes different than that of the video block they originate from. Reference samples for a sub-partition are those of the video block when reference samples for the sub-partition are not available, such as due to direction. In an embodiment, when a sub-partition is square, conventional intra prediction directions are used. Reference samples can be used from a block above and right of the video block or left and below the video block using a mapping along a prediction direction, vertically, or horizontally.
H04N 19/105 - Sélection de l’unité de référence pour la prédiction dans un mode de codage ou de prédiction choisi, p. ex. choix adaptatif de la position et du nombre de pixels utilisés pour la prédiction
H04N 19/593 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif mettant en œuvre des techniques de prédiction spatiale
H04N 19/176 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c.-à-d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p. ex. un objet la zone étant un bloc, p. ex. un macrobloc
72.
METHOD FOR DISPLAYING IMAGES ON A FLEXIBLE DISPLAY DEVICE IN A HEAD-MOUNTABLE DEVICE AND CORRESPONDING APPARATUS
A method and an apparatus are defined for displaying images on a flexible display in a head-mountable device (HMD). One or more flexible display devices may be inserted in the HMD. The one or more flexible display devices may be constrained by the HMD to take a particular curved form and wrap the field of view (FOV) of images displayed on the one or more flexible display devices for an improved user experience. The display surface of the one or more flexible displays may be divided in display areas, the display areas corresponding to a focus area and a peripheral FOV. Image processing may be differentiated according to display area.
At least one embodiment relates to a method assigning a pixel value of an occupancy map either indicates that a depth value of at least one 3D sample of a point cloud frame projected along a same projection line is stored as a pixel value of at least one layer or equals a fixed-length codeword representing a depth value of at least one 3D sample projection along said projection line.
H04N 19/597 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif spécialement adapté pour l’encodage de séquences vidéo multi-vues
74.
LOW DISPLACEMENT RANK BASED DEEP NEURAL NETWORK COMPRESSION
A method and an apparatus for performing deep neural network compression use an approximation training set along with information, such as in matrices representing weights, biases and non-linearities, to iteratively compress a p re-trained deep neural network by low displacement rank based approximation of the network layer weight matrices. The low displacement rank approximation allows for replacement of an original layer weight matrices of the pre-trained deep neural network as the sum of a small number of structured matrices, allowing compression and low inference complexity.
H04N 19/42 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par les détails de mise en œuvre ou le matériel spécialement adapté à la compression ou à la décompression vidéo, p. ex. la mise en œuvre de logiciels spécialisés
At least one embodiment relates to a method for signaling a syntax element representing a Point Local Reconstruction mode, said Point Local Reconstruction mode being representative of at least one parameter defining a mode for reconstructing at least one point of a point cloud frame.
H04N 19/70 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par des aspects de syntaxe liés au codage vidéo, p. ex. liés aux standards de compression
At least one embodiment relates to signaling at least one texture patch representing a texture value of at least one in-between 3D sample, a texture patch being a set of 2D samples representing texture values of orthogonally projected 3D samples of a point cloud along projection lines onto a projection plane, and said at least one in-between 3D sample being a 3D sample of the point cloud having a depth value greater than a nearer 3D sample of the point cloud and lower than a farther 3D sample of the point cloud, said at least one in-between 3D sample and said nearer and farther 3D samples being projected along the same projection line
H04N 19/597 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif spécialement adapté pour l’encodage de séquences vidéo multi-vues
At least one embodiment relates to a method comprising storing a depth value of at least two 3D samples of a point cloud frame in at least two depth images; and determining a minimum depth value and a maximum depth value at a 2D location of a projection plane from depth values stored at said 2D location in said at least two depth images and encoding a depth value of at least one additional 3D sample of the point cloud according to said minimal and maximal depth values, said at least one 3D sample and said at least one additional 3D sample being projected onto the projection plane along a same projection line.
H04N 19/597 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif spécialement adapté pour l’encodage de séquences vidéo multi-vues
A method for obtaining a temporal motion vector predictor is disclosed. A new temporal motion vector predictor is obtained by using a motion vector of a block in a collocated image. The block is displaced (with respect spatial location of the current block) by a motion vector coming from a new temporal motion vector predictor (TMVP) process.
H04N 19/196 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par le procédé d’adaptation, l’outil d’adaptation ou le type d’adaptation utilisés pour le codage adaptatif étant spécialement adaptés au calcul de paramètres de codage, p. ex. en faisant la moyenne de paramètres de codage calculés antérieurement
H04N 19/52 - Traitement de vecteurs de mouvement par encodage par encodage prédictif
79.
A METHOD AND APPARATUS FOR DEPTH ENCODING AND DECODING
Methods, device and data stream format are disclosed in the present document for the encoding, the formatting and the decoding of depth information representative of a 3D scene. Compression and decompression of quantized values by a video codec leads to a value error. This error on values is particularly sensitive for depth encoding. The present invention proposes to encode and decode depth with a quantization function that minimize an angle error when a value error on quantized depth creates a location delta between the projected point and the de-projected point. The inverse of such a quantization function has to be encoded in metadata associated with the 3D scene, for example as a LUT, to be retrieved at the decoding, as such functions are not tractable.
H04N 19/597 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif spécialement adapté pour l’encodage de séquences vidéo multi-vues
H04N 19/70 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par des aspects de syntaxe liés au codage vidéo, p. ex. liés aux standards de compression
Encoding or decoding syntax information associated with video information can involve identifying a coding context associated with a syntax element of a current coding unit of the video information, wherein the identifying occurs without using a syntax element of a neighboring block, and encoding or decoding the syntax element of the current coding unit based on the coding context.
H04N 19/91 - Codage entropique, p. ex. codage à longueur variable ou codage arithmétique
H04N 19/70 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par des aspects de syntaxe liés au codage vidéo, p. ex. liés aux standards de compression
81.
A METHOD AND APPARATUS FOR ENCODING AND RENDERING A 3D SCENE WITH INPAINTING PATCHES
Methods, devices and stream are disclosed for encoding, transporting and decoding a 3D scene prepared to be viewed from the inside of a viewing zone. A central view comprising texture and depth information is encoded by projected points of the 3D scene visible from a central point of view onto an image plane. Patches are generated to encode small parts of the 3D scene not visible from the central point of view. At the rendering, a viewport image is generated for the current point of view. Holes, that is dis-occluded areas, of the viewport are filled using a patch based inpainting algorithm adapted to take the patches, warped according to the rotation and translation between virtual camera used for capturing the patch and the current virtual camera.
H04N 19/597 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif spécialement adapté pour l’encodage de séquences vidéo multi-vues
H04N 19/46 - Inclusion d’information supplémentaire dans le signal vidéo pendant le processus de compression
A method for decoding is presented. A forward mapping is performed to a prediction sample corresponding to a sample of a block of a picture. The forward mapping is based on a forward mapping function modeled as a piece wise linear function. An inverse mapping, based on an inverse mapping function, is performed to a reconstructed version of the sample of the block. At least information representative of a number of pivot points of the piece wise linear function and information representative of the value of each of the pivot points are decoded.
H04N 19/85 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le pré-traitement ou le post-traitement spécialement adaptés pour la compression vidéo
H04N 19/46 - Inclusion d’information supplémentaire dans le signal vidéo pendant le processus de compression
H04N 19/463 - Inclusion d’information supplémentaire dans le signal vidéo pendant le processus de compression par compression des paramètres d’encodage avant la transmission
H04N 19/182 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c.-à-d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant un pixel
H04N 19/82 - Détails des opérations de filtrage spécialement adaptées à la compression vidéo, p. ex. pour l'interpolation de pixels mettant en œuvre le filtrage dans une boucle de prédiction
83.
TRANSFORM SELECTION AND SIGNALING FOR VIDEO ENCODING OR DECODING
In at least one embodiment, a method and apparatus for encoding/decoding a picture comprising the selection of a transform amongst a set of transform functions and the signaling of the selected transform in a bitstream at the encoding side and determining the inverse transform from the bitstream and using the determined inverse transform function to decode the picture from the bitstream at the decoder side.
H04N 19/176 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c.-à-d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p. ex. un objet la zone étant un bloc, p. ex. un macrobloc
H04N 19/61 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant un codage par transformée combiné avec un codage prédictif
H04N 19/12 - Sélection parmi plusieurs transformées ou standards, p. ex. sélection entre une transformée en cosinus discrète [TCD] et une transformée en sous-bandes ou sélection entre H.263 et H.264
H04N 19/70 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par des aspects de syntaxe liés au codage vidéo, p. ex. liés aux standards de compression
84.
METHOD AND APPARATUS FOR VIDEO ENCODING AND DECODING WITH SUBBLOCK BASED LOCAL ILLUMINATION COMPENSATION
Different implementations are described, particularly implementations for video encoding and decoding based on a linear model responsive to neighboring samples are presented. Accordingly, for a block being encoded or decoded in a picture, refined linear model parameters are determined for a current subblock in the block and for encoding the block, the local illumination compensation uses a linear model for the current subblock based on the refined linear model parameters. In a first embodiment, the number N of reconstructed samples increases with the available data for the subblock. In a second embodiment, partial linear model parameters are determined for the subblock and refined linear model parameters are derived from a weighted sums of partial linear model parameters. In a third embodiment, the subblocks are independently LIC processed.
H04N 19/176 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c.-à-d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p. ex. un objet la zone étant un bloc, p. ex. un macrobloc
H04N 19/117 - Filtres, p. ex. pour le pré-traitement ou le post-traitement
H04N 19/463 - Inclusion d’information supplémentaire dans le signal vidéo pendant le processus de compression par compression des paramètres d’encodage avant la transmission
H04N 19/14 - Complexité de l’unité de codage, p. ex. activité ou estimation de présence de contours
H04N 19/82 - Détails des opérations de filtrage spécialement adaptées à la compression vidéo, p. ex. pour l'interpolation de pixels mettant en œuvre le filtrage dans une boucle de prédiction
H04N 19/192 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par le procédé d’adaptation, l’outil d’adaptation ou le type d’adaptation utilisés pour le codage adaptatif le procédé d’adaptation, l’outil d’adaptation ou le type d’adaptation étant itératif ou récursif
85.
A METHOD AND APPARATUS FOR ENCODING AND DECODING VOLUMETRIC VIDEO
Methods, devices and stream are disclosed to encode and decode a 3D scene (such as a point cloud) in the context of a patch-based transmission of a volumetric video content. The present principles relate a method of associating to each projection center a domain of validity with respect to the viewing location. Doing so, the rendering engine is able to select the subset of patches among all patches transmitted in the patch atlas, which is best suited to the current viewport pose. Such validity information is explicitly transmitted as additional metadata within the volumetric video content stream.
H04N 21/218 - Source du contenu audio ou vidéo, p. ex. réseaux de disques locaux
H04N 21/234 - Traitement de flux vidéo élémentaires, p. ex. raccordement de flux vidéo ou transformation de graphes de scènes du flux vidéo codé
H04N 21/2343 - Traitement de flux vidéo élémentaires, p. ex. raccordement de flux vidéo ou transformation de graphes de scènes du flux vidéo codé impliquant des opérations de reformatage de signaux vidéo pour la distribution ou la mise en conformité avec les requêtes des utilisateurs finaux ou les exigences des dispositifs des utilisateurs finaux
H04N 21/845 - Structuration du contenu, p. ex. décomposition du contenu en segments temporels
H04N 19/597 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif spécialement adapté pour l’encodage de séquences vidéo multi-vues
H04N 13/161 - Encodage, multiplexage ou démultiplexage de différentes composantes des signaux d’images
H04N 21/235 - Traitement de données additionnelles, p. ex. brouillage de données additionnelles ou traitement de descripteurs de contenu
H04N 21/41 - Structure de clientStructure de périphérique de client
H04N 21/414 - Plate-formes spécialisées de client, p. ex. récepteur au sein d'une voiture ou intégré dans un appareil mobile
H04N 21/84 - Génération ou traitement de données de description, p. ex. descripteurs de contenu
86.
FLEXIBLE ALLOCATION OF REGULAR BINS IN RESIDUAL CODING FOR VIDEO CODING
In at least one embodiment, a method and apparatus for encoding/decoding a video is based on a CABAC coding of bins where a high-level constraint on the maximum usage of regular CABAC coding of bins is enforced. In other words, a budget of regular coded bins is allocated over a picture area that is larger than a coding group, thus covering a plurality of coding groups, and which is determined from an average allowed number of regular bins per unit of area.
H04N 19/13 - Codage entropique adaptatif, p. ex. codage adaptatif à longueur variable [CALV] ou codage arithmétique binaire adaptatif en fonction du contexte [CABAC]
H04N 19/91 - Codage entropique, p. ex. codage à longueur variable ou codage arithmétique
H04N 19/42 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par les détails de mise en œuvre ou le matériel spécialement adapté à la compression ou à la décompression vidéo, p. ex. la mise en œuvre de logiciels spécialisés
H04N 19/127 - Établissement des priorités des ressources en matériel ou en calcul
H04N 19/156 - Disponibilité de ressources en matériel ou en calcul, p. ex. codage basé sur des critères d’économie d’énergie
87.
FLEXIBLE ALLOCATION OF REGULAR BINS IN RESIDUAL CODING FOR VIDEO CODING
In at least one embodiment, a method and apparatus for encoding/decoding a video is based on a CABAC coding of bins where a high-level constraint on the maximum usage of regular CABAC coding of bins is enforced. In other words, a budget of regular coded bins is allocated over a picture area that is larger than a coding group, thus covering a plurality of coding groups, and which is determined from an average allowed number of regular bins per unit of area.
H04N 19/13 - Codage entropique adaptatif, p. ex. codage adaptatif à longueur variable [CALV] ou codage arithmétique binaire adaptatif en fonction du contexte [CABAC]
H04N 19/127 - Établissement des priorités des ressources en matériel ou en calcul
H04N 19/156 - Disponibilité de ressources en matériel ou en calcul, p. ex. codage basé sur des critères d’économie d’énergie
For multi-view video content represented in the MVD (Multi-view + Depth) format, the depth maps may be processed to improve the coherency therebetween. In one implementation, to process a target view based on an input view, pixels of the input view are first projected into the world coordinate system, then into the target view to form a projected view. The texture of the projected view and the texture of the target view are compared. If the difference at a pixel is small, then the depth of the target view at that pixel is adjusted, for example, replaced by the corresponding depth of the projected view. When the multi-view video content is encoded and decoded in a system, depth map processing may be applied in the pre-processing and post-processing modules to improve video compression efficiency and the rendering quality.
H04N 13/128 - Ajustement de la profondeur ou de la disparité
H04N 13/271 - Générateurs de signaux d’images où les signaux d’images générés comprennent des cartes de profondeur ou de disparité
H04N 19/597 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif spécialement adapté pour l’encodage de séquences vidéo multi-vues
To encode with CABAC, a non-binary syntax element value is mapped to a binary sequence (bin string), through a binarization process. A binary arithmetic coding engine encodes or decodes a bin, in a regular (context-based) mode and a bypass mode.
H04N 19/91 - Codage entropique, p. ex. codage à longueur variable ou codage arithmétique
H04N 19/13 - Codage entropique adaptatif, p. ex. codage adaptatif à longueur variable [CALV] ou codage arithmétique binaire adaptatif en fonction du contexte [CABAC]
H04N 19/88 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le pré-traitement ou le post-traitement spécialement adaptés pour la compression vidéo mettant en œuvre la réorganisation de données entre différentes unités de codage, p. ex. redistribution, entrelacement, brouillage ou permutation de données de pixel ou permutation de données de coefficients de transformée entre différents blocs
H04N 19/50 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif
H04N 19/577 - Compensation de mouvement avec interpolation de trame bidirectionnelle, p. ex. utilisation d’images B
90.
LOCAL ILLUMINATION COMPENSATION FOR VIDEO ENCODING OR DECODING
In at least one embodiment, a method and apparatus for encoding/decoding a picture comprising predicting at least one block, wherein the predicting comprises performing motion compensation and local illumination compensation based on a reference block, the local illumination compensation including applying a linear model based on sums of absolute differences of neighboring reconstructed samples and corresponding reference samples of the reference block, wherein the neighboring reconstructed samples and corresponding reference samples of the reference block are co-located according to an L-shape substantially adjacent to the block to be predicted, the L-shape comprising a row of pixels located to the top side of the predicted block and a column of pixels located to the left side of the predicted block, the co-location being determined according a motion vector of the predicted block.
H04N 19/82 - Détails des opérations de filtrage spécialement adaptées à la compression vidéo, p. ex. pour l'interpolation de pixels mettant en œuvre le filtrage dans une boucle de prédiction
H04N 19/176 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c.-à-d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p. ex. un objet la zone étant un bloc, p. ex. un macrobloc
H04N 19/196 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par le procédé d’adaptation, l’outil d’adaptation ou le type d’adaptation utilisés pour le codage adaptatif étant spécialement adaptés au calcul de paramètres de codage, p. ex. en faisant la moyenne de paramètres de codage calculés antérieurement
Encoding or decoding syntax information associated with video information can involve identifying a coding context associated with a syntax element of a current coding unit of the video information, wherein the identifying occurs without using a syntax element of a neighboring block, and encoding or decoding the syntax element of the current coding unit based on the coding context.
H04N 19/91 - Codage entropique, p. ex. codage à longueur variable ou codage arithmétique
H04N 19/70 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par des aspects de syntaxe liés au codage vidéo, p. ex. liés aux standards de compression
A method and apparatus for performing intra prediction mode partitioning predicts pixels of a video coding block using a plurality of intra prediction modes over a plurality of regions of the video coding block. Predictions can be based on reference arrays using at least one reference line above the block to be coded and/or using at least one reference column to the left of the block to be coded. Different prediction modes are used in different regions of the coding block. In at least one embodiment, the video coding block is split into a plurality of partitions in addition to having a plurality of intra prediction modes over different regions of the block. Signaling enables a decoder to determine the number of regions within a coding block. In at least another embodiment, prediction modes allowable within regions of a video coding block differ by one angular position.
H04N 19/11 - Sélection du mode de codage ou du mode de prédiction parmi plusieurs modes de codage prédictif spatial
H04N 19/105 - Sélection de l’unité de référence pour la prédiction dans un mode de codage ou de prédiction choisi, p. ex. choix adaptatif de la position et du nombre de pixels utilisés pour la prédiction
H04N 19/119 - Aspects de subdivision adaptative, p. ex. subdivision d’une image en blocs de codage rectangulaires ou non
H04N 19/176 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c.-à-d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p. ex. un objet la zone étant un bloc, p. ex. un macrobloc
H04N 19/593 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif mettant en œuvre des techniques de prédiction spatiale
H04N 19/70 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par des aspects de syntaxe liés au codage vidéo, p. ex. liés aux standards de compression
A method and apparatus for performing a forward mapping function or its inverse is implemented through information conveyed in a bitstream to perform mapping. The information can be implemented in a uniform or non-uniform lookup table. A decoder can receive the information and derive the inverse function to be used. In one embodiment, a decoder receives information representative of an inverse mapping function and uses the information to implement an inverse mapping lookup table for intra coded picture portions and can derive a forward mapping lookup table to be used with an inverse mapping lookup table for inter coded picture portions.
H04N 19/82 - Détails des opérations de filtrage spécialement adaptées à la compression vidéo, p. ex. pour l'interpolation de pixels mettant en œuvre le filtrage dans une boucle de prédiction
H04N 19/70 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par des aspects de syntaxe liés au codage vidéo, p. ex. liés aux standards de compression
94.
METHOD AND DEVICE FOR PICTURE ENCODING AND DECODING
A method for video decoding is disclosed. A first reconstructed version of an image block of an encoded video is accessed. The first reconstructed version of said image block is filtered by a first neural network to form a second reconstructed version of said image block to be used as reference. The second reconstructed version of said image block is filtered by a second neural network to form a third reconstructed version of said image block to be displayed. The first and second neural networks are trained jointly.
G06N 3/04 - Architecture, p. ex. topologie d'interconnexion
H04N 19/82 - Détails des opérations de filtrage spécialement adaptées à la compression vidéo, p. ex. pour l'interpolation de pixels mettant en œuvre le filtrage dans une boucle de prédiction
H04N 19/86 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le pré-traitement ou le post-traitement spécialement adaptés pour la compression vidéo mettant en œuvre la diminution des artéfacts de codage, p. ex. d'artéfacts de blocs
H04N 19/117 - Filtres, p. ex. pour le pré-traitement ou le post-traitement
A cross-component dependent tool to be used for a chroma block of a picture is enabled responsive to a size of said chroma block and to a size of at least one luma block co-located with the chroma block. Then, the chroma block is decoded responsive to said enablement of said cross-component dependent tool. A encoding and decoding methods are presented as well as encoding and decoding devices.
H04N 19/127 - Établissement des priorités des ressources en matériel ou en calcul
H04N 19/186 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c.-à-d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une couleur ou une composante de chrominance
H04N 19/167 - Position dans une image vidéo, p. ex. région d'intérêt [ROI]
A method and apparatus for performing intra prediction for encoding or decoding adds multiple prediction modes to those of prior intra prediction schemes. A horizontal mode, a vertical mode, and a diagonal mode are added. Reference pixels for each of the added modes can come from multiple pixel positions away from a block to be encoded or decoded. Reference pixels to the left and above a block are reconstructed from those already coded. Reference pixels from right of, and below, a block are estimated or extrapolated and can be based on other pixels around the block. An index can be sent in a bitstream indicating which prediction was used.
H04N 19/593 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif mettant en œuvre des techniques de prédiction spatiale
H04N 19/105 - Sélection de l’unité de référence pour la prédiction dans un mode de codage ou de prédiction choisi, p. ex. choix adaptatif de la position et du nombre de pixels utilisés pour la prédiction
H04N 19/11 - Sélection du mode de codage ou du mode de prédiction parmi plusieurs modes de codage prédictif spatial
H04N 19/147 - Débit ou quantité de données codées à la sortie du codeur selon des critères de débit-distorsion
H04N 19/159 - Type de prédiction, p. ex. prédiction intra-trame, inter-trame ou de trame bidirectionnelle
H04N 19/176 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c.-à-d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p. ex. un objet la zone étant un bloc, p. ex. un macrobloc
H04N 19/182 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c.-à-d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant un pixel
H04N 21/235 - Traitement de données additionnelles, p. ex. brouillage de données additionnelles ou traitement de descripteurs de contenu
H04N 21/435 - Traitement de données additionnelles, p. ex. décryptage de données additionnelles ou reconstruction de logiciel à partir de modules extraits du flux de transport
H04N 21/44 - Traitement de flux élémentaires vidéo, p. ex. raccordement d'un clip vidéo récupéré d'un stockage local avec un flux vidéo en entrée ou rendu de scènes selon des graphes de scène du flux vidéo codé
H04N 21/234 - Traitement de flux vidéo élémentaires, p. ex. raccordement de flux vidéo ou transformation de graphes de scènes du flux vidéo codé
H04N 19/70 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par des aspects de syntaxe liés au codage vidéo, p. ex. liés aux standards de compression
H04N 19/46 - Inclusion d’information supplémentaire dans le signal vidéo pendant le processus de compression
98.
METHOD AND DEVICE FOR PICTURE ENCODING AND DECODING USING ILLUMINATION COMPENSATION
A method for reconstructing a picture block is disclosed, wherein the block is predicted using local illumination compensation. The parameters of local illumination compensation are determined according to a selection of reconstructed samples located to the left and above of the current block. In the case where some of them are unavailable, they may be replaced using different techniques.
H04N 19/117 - Filtres, p. ex. pour le pré-traitement ou le post-traitement
H04N 19/14 - Complexité de l’unité de codage, p. ex. activité ou estimation de présence de contours
H04N 19/176 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c.-à-d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p. ex. un objet la zone étant un bloc, p. ex. un macrobloc
H04N 19/82 - Détails des opérations de filtrage spécialement adaptées à la compression vidéo, p. ex. pour l'interpolation de pixels mettant en œuvre le filtrage dans une boucle de prédiction
H04N 19/86 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le pré-traitement ou le post-traitement spécialement adaptés pour la compression vidéo mettant en œuvre la diminution des artéfacts de codage, p. ex. d'artéfacts de blocs
99.
METHOD AND APPARATUS FOR VIDEO ENCODING AND DECODING WITH BI-DIRECTIONAL OPTICAL FLOW ADAPTED TO WEIGHTED PREDICTION
Different implementations are described, particularly implementations for video encoding and decoding are presented. According to an implementation, in a method for encoding or decoding a part of an image, at least an equation of the bi-directional optical flow is modified for unequal weights in a weighted prediction of the part of the image. According to non-limiting examples, modifying the bi-directional optical flow equation comprises bit depth shifting the unequal weights used in the weighted prediction, quantifying the unequal weighs used in the weighted prediction or deriving modified weighs to apply to predictions of the part of the image from the unequal weights used in weighted prediction.
A sequence of three-dimension scenes is encoded as a video by an encoder and transmitted to a decoder which retrieves the sequence of 3D scenes. Points of a 3D scene visible from a determined point of view are encoded as a color image in a first track of the stream in order to be decodable independently from other tracks of the stream. The color image is compatible with a three degrees of freedom rendering. Depth information and depth and color of residual points of the scene are encoded in separate tracks of the stream and are decoded only in case the decoder is configured to decode the scene for a volumetric rendering.
H04N 13/161 - Encodage, multiplexage ou démultiplexage de différentes composantes des signaux d’images
H04N 19/597 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif spécialement adapté pour l’encodage de séquences vidéo multi-vues
H04N 13/15 - Aspects des signaux d’images en rapport avec la couleur
H04N 13/122 - Raffinement de la perception 3D des images stéréoscopiques par modification du contenu des signaux d’images, p. ex. par filtrage ou par ajout d’indices monoscopiques de profondeur
H04N 13/178 - Métadonnées, p. ex. informations sur la disparité