Nowe urządzenie wykrywa uśmiech – nawet przez maseczkę

Tuochao Chen patrzy się. Potem śmieje się. Potem krzywi się. Robiąc miny, nosi urządzenie, które wygląda jak para słuchawek. Ale zamiast odtwarzać dźwięk, kieruje kamery na jego policzki. Kamery widzą tylko boki jego twarzy. Zaskakujące jest to, że to wystarczająca ilość twarzy, aby odróżnić szyderczy uśmiech od uśmiechu lub śmiech od zmarszczonej brwi. System komputerowy podłączony do słuchawek może określić, jak wyglądają oczy i usta Chena, nie widząc ich bezpośrednio.

Działa nawet jeśli Chen nosi maseczkę na twarz. System może stwierdzić, czy się uśmiecha, czy marszczy brwi.

Chen studiuje informatykę w laboratorium Cheng Zhang na Uniwersytecie Cornell w Ithaca w stanie Nowy Jork Zhang wpadł na pomysł tego systemu. Nazywa to C-face. To „C” oznacza kontur. To także gra słów, ponieważ urządzenie „widzi” twoją twarz.

Celem jego zespołu jest stworzenie technologii, która pozwoli lepiej zrozumieć ludzi. W tej chwili nasze urządzenia w większości nie mają pojęcia, jak się czujemy i czego potrzebujemy. Ale z czasem więcej urządzeń nas zrozumie. Zhang ma nadzieję, że „w przyszłości wszystko będzie inteligentne”. Na przykład telefon może rozpoznać zdenerwowaną twarz i zasugerować uspokajającą muzykę. Aby jednak Twój telefon wiedział, że jesteś zdenerwowany, musi w jakiś sposób przechwycić te informacje od Ciebie. Na przykład z aparatu.

Ale nie zawsze wygodnie jest mieć aparat przed twarzą. A co jeśli ćwiczysz, gotujesz lub robisz zakupy? „Ludzie są bardziej otwarci na noszenie urządzeń na uszach lub na nadgarstkach” – zauważa Zhang. Jego zespół już udowodnił, że można odczytać gesty dłoni z urządzenia noszonego na nadgarstku. To sprawiło, że zaczął się zastanawiać, czy mógłby zarejestrować całą mimikę twarzy z aparatów noszonych na uszach.

Boki – lub kontury – policzków zmieniają się, w zależności od miny. Zatem kontur o określonym kształcie może pasować do określonego wyrazu twarzy. Uczenie głębokie, technika sztucznej inteligencji, może wykrywać takie wzorce. Wystarczy dużo praktyki, zwanej szkoleniem.

Aby trenować C-face, Chen i inni członkowie zespołu robili śmieszne miny. W międzyczasie aparaty w słuchawkach uchwyciły, jak kontury ich policzków zmieniały się z każdym wyrazem twarzy. Kamera przed twarzą uchwyciła lokalizacje ważnych punktów orientacyjnych wokół brwi, oczu i ust. System nauczył się dopasowywać zmiany konturów do zmian w tych punktach orientacyjnych. Po zakończeniu treningu urządzenie mogło przyjrzeć się konturom policzków i przewidzieć położenie punktów orientacyjnych wokół oczu i ust, które odpowiadały określonej mimice twarzy.

Kiedy Tuochao Chen (po lewej) robi minę, wirtualna postać (awatar po prawej) kopiuje ten wyraz. System kontrolujący wirtualną twarz nie widzi brwi, oczu ani ust Chena. Obserwuje tylko jego policzki. Ponieważ urządzenie nie patrzy bezpośrednio na czyjeś usta i nos, może ujawnić wyraz twarzy ukryty przez maseczkę. SCIFI LAB / CORNELL UNIVERSITY

Następnie naukowcy wprowadzili te przełomowe dane do programu, który stworzył pasującą wirtualną wersję twarzy, która wyglądała na szczęśliwą, smutną, zdziwioną, zaskoczoną lub coś zupełnie inną.

Grupa Zhanga zaprezentowała swój nowy system w październiku 2020 r. Naukowcy podzielili się szczegółami na jego temat na wirtualnej konferencji Sympozjum Stowarzyszenia Maszyn Komputerowych na temat oprogramowania i technologii interfejsu użytkownika.

Nauka ukształtowana przez współlokatorów i pandemię

Twarz każdego jest wyjątkowa. Dlatego każda osoba korzystająca z urządzenia C-face musi je trenować i testować na własnych wyrazach twarzy. Aby to zrobić, zespół Zhanga musiał rekrutować wolontariuszy. Ale wtedy była wiosna 2020 roku. Pandemia koronawirusa spowodowała zamknięcie większości świata. Zabranie kogokolwiek do laboratorium nie było bezpieczne. Więc zespół stał się kreatywny.

„Otrzymaliśmy zgodę na przeprowadzenie badania z naszymi współlokatorami” – mówi Benjamin Steeper, inny student Cornell. Sytuacja nie była idealna. Steeper przekształcił jeden pokój w swoim mieszkaniu w „pokój naukowy” wraz z biurkiem, krzesłem, kamerami i wszystkim innym, czego potrzebował.

W międzyczasie Chen urządził swoją sypialnię, by służyła również jako gabinet. Chen występuje w filmie, którego zespół użył do treningu i testowania C-face. Przez godzinę robi dziesiątki różnych min, jedno po drugim. Wolontariusze musieli obejrzeć wideo i skopiować każde wyrażenie. Myśleli, że to zabawne patrzeć na Chena robiącego śmieszne miny przez tak długi czas. Jeden ze współlokatorów Chena powiedział mu później: „Zobaczymy się dziś w moich snach!”

Pandemia miała inny ważny wpływ na badania zespołu. Maseczki na twarz nagle stały się częścią codziennego życia. Inne oprogramowanie zaprojektowane do rozpoznawania ludzkich twarzy – takie jak FaceID na iPhonie – nie działa, gdy ktoś nosi maseczkę. „Ciągle widzę, jak wszyscy śćiągają swoje maseczki w celu odblokowania iPhone’a” – mówi Ilke Demir. „Patrzenie na kontury to bardzo przyjemne rozwiązanie”. Demir, który nie był zaangażowany w badania, jest naukowcem w Intel w Los Angeles w Kalifornii.

Zespół wykazał, że C-face może ujawniać miny ludzi nawet w maseczkach. To urządzenie może pomóc w łatwiejszej komunikacji z przyjaciółmi podczas noszenia maseczki. Zrobiłoby to poprzez odwzorowanie twojego ukrytego wyrazu na twarzy wirtualnego awatara. Ta cyfrowa wersja ciebie pasowałaby do twoich wyrażeń, gdy mówisz, uśmiechasz się, a może sapiesz.

Tuochao Chen robi miny, podczas gdy C-face odwzorowuje punkty na krytycznych punktach orientacyjnych, takich jak oczy, brwi i usta. Następnie dopasowuje te konfiguracje kropek do konturów policzków dla każdego wyrazu twarzy. To, że C-face mógł zamienić tak niewiele danych w całe wyrażenie „było zaskoczeniem” – mówi François Guimbretière, informatyk, który pracował nad projektem.

Kreator emotikonów

Dzięki szkoleniu C-face może również zamienić czyjeś prawdziwe mimikę w emotikony. Wystarczy się nauczyć, jakie wyrażenie powinno pasować do którego emotikonu. Następnie zamiast przewijać emotikony, aby znaleźć tę, którą chcesz, po prostu ustaw twarz na swoim urządzeniu, a pojawi się ona na ekranie, gotowa do opublikowania lub wysłania SMS-a.

Nie możesz kupić C-face, przynajmniej na razie. Zużywa teraz zbyt dużo energii i mocy obliczeniowej. Demir wskazuje, że również „wymaga więcej badań użytkowników”. Dziewięciu ochotników, którzy wzięli udział w badaniu, to wszyscy badacze i ich współlokatorzy. Ta mała grupa nie reprezentuje całej populacji. Demir zwraca uwagę, że naukowcy muszą upewnić się, że to urządzenie działa na wszystkich rodzajach włosów, kolorów skór, rozmiarach głów i nie tylko.

Jednak Steeper należy do tych, którzy nie mogą się doczekać używania C-face lub czegoś podobnego codziennie. Teraz, kiedy jednocześnie gotuje i rozmawia z rodziną, odkłada telefon na stół. „Widzą tylko mój sufit” – mówi. Gdyby używał C-face, jego rodzina mogłaby zamiast tego zobaczyć wirtualnego awatara lub wersję cyfrową.

Źródło: Kathryn Hulick

T. Chen et al. C-Face: Continuously reconstructing facial expressions by deep learning contours of the face with ear-mounted miniature cameras. UIST ’20: The 33rd Annual ACM Symposium on User Interface Software and Technology, October 20-23, 2020. Virtual Event, USA. doi: 10.1145/3379337.3415879.

Zdjęcie: DAMIRCUDIC/E+/GETTY IMAGES

Subscribe
Powiadom o
guest
0 komentarzy
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x
()
x