К основному контенту

Нейросеть Speech2Face генерирует изображение лица человека по аудиозаписи голоса


В Лаборатории искусственного интеллекта MIT опубликовали Speech2Face — модель, которая реконструирует лицо человека по записи его голоса. Нейросеть обучалась на миллионах видеозаписей с YouTube, на которых демонстрируется разговор человека.
Задача заключалась в том, чтобы понять, может ли голос отражать внешние характеристики его обладателя. Исследователи не фокусировались на том, чтобы точно реконструировать портрет человека по голосу, а на том, чтобы восстановить основные внешние характеристики.

Архитектура модели

На вход модель принимает спектограмму аудиозаписи голоса. Спектограмма — визуальное представление аудиоволн. На выходе модель отдает вектор размером в 4096 с характеристиками лица, который затем декодируется в изображение лица. Декодирование из вектора с характеристиками в изображение лица происходит с помощью предобученной нейросети.
Обучалась модель на датасете AVSpeech. Для этой цели исследователи использовали предобученную VGG-Face.
Пайплайн обучения модели можно разделить на два шага:
  1. Кодировщик голоса, который принимает на вход спектограмму и предсказывает вектор с характеристиками лица человека;
  2. Декодировщик лица, который принимает на вход вектор с характеристиками лица человека и генерирует лицо человека в стандартном формате (анфас и безэмоциональное)
Во время обучения декодировщик лица был зафиксирован и обучался только кодировщик голоса. Декодировщик лица исследователи взяли готовым из работы Cole et al.

Оценка работы модели

Нейросеть была протестирована с помощью качественных и количественных метрик. Во время экспериментов модель тестировалась на датасетах AVSpeech и VoxCeleb. Ниже можно, что чем длиннее входная аудиозапись (3 сек против 6 сек), тем выше количественная метрика и тем ближе сгенерированное изображение к истинному.
 
@black_triangle_tg

Популярное

Пробив информации. Osint-ресурсы.

Думаю что эта подборка будет полезна и вам, список ресурсов не всеобъемлющий по этому всем кому есть что добавить, добро пожаловать в коментарии. Поиск По Фотографиям Поиск по лицу: FindTwin face search demo + @VkUrlBot Face search • PimEyes Betaface free online demo - Face recognition, Face search, Face analysis VK.watch – история профилей ВКонтакте Поиск первоисточника картинки и всех доменов где она хоститься: TinEye Reverse Image Search Reverse image search for images and video - Berify.com Search by image | Reverse Image Search on Google 2019 Reverse Image Search - Search By Image Reverse Image Search - Find Similar Photos Online Karma Decay - Reverse image search of Reddit.com Поиск фото по геометкам в социальных сетях: Поиск фото по геометкам в соц. сетях Поисковик фотографий с привязкой к геолокации Другое: Поиск по фото мошенников и фейков Поисковые Cистемы Людей Мир: Free People Search | PeekYou https://pipl.com/ ...

Пишем бот для рыбалки в игре Albion Online на языке Python (Albion Online Fishing bot)

import numpy as np import cv2 from mss.linux import MSS as mss from PIL import Image import time import pyautogui as pg import imutils import mss import numpy import pyautogui template = cv2.imread("2019-07-02_06-55_1.png", cv2.IMREAD_GRAYSCALE) w, h = template.shape[::-1] color_yellow = (0,255,255) mon = {'top': 80, 'left': 350, 'width': 100, 'height': 100} def process_image(original_image):     processed_image = cv2.cvtColor(original_image, cv2.COLOR_BGR2GRAY)     processed_image = cv2.Canny(processed_image, threshold1=200, threshold2=300)     return processed_image def ss():     op = 1     with mss.mss() as sct:         monitor = {"top": 40, "left": 0, "width": 800, "height": 640}         while "Screen capturing":             last_time = time.time()      ...

Скрытые функции поисковика DuckDuckGo

Если пoисковик DuckDuckGo кому-то и известен, то в первую очередь в связи с повышенной приватностью. В отличие от Google или «Яндекса» он не собирает данные о пользователях, но и результаты у него не такие же хорошие. Однако стоит копнуть глубже, и оказывается, что это мощнейший инструмент, способный значительно облегчить и ускорить извлечение информации из Сети. Начнем с того, что на самом деле DDG — не совсем поисковик. Вернее даже, совсем не поисковик, а этакий агpегатор ответов с разных поисковиков. В своей работе он использует поисковую выдачу Yahoo, Bing, Yummly, «Яндекса», «Википедии» и сотен других «надежных» источников. Такая особенность делает DDG очень точным, если источники содержат информацию именно по этому запросу. Он легко выдает исчерпывающие ответы на запросы типа «linux df», «долгая счастливая жизнь», «Java InterruptedException» или даже «is it raining». Но как только ты введешь что-то более сложное, что-то, чего не окажется в источниках DDG,...