Векторне представлення слів вказало на змінене ставлення до жінок і азіатам

Аналіз текстів, написаних протягом XX століття, допоміг простежити за зміною стереотипів щодо жінок і етнічних меншин в американському суспільстві, йдеться в статті, опублікованій в журналі. Автори дослідження показали, що представлення слів як багатовимірних векторів служить валідним інструментом у кількісних соціологічних дослідженнях.


У векторно представлених моделях слова існують у вигляді багатовимірних векторів, відносини між якими вказують на семантичну близькість двох слів: наприклад, якщо два відповідні до різних слів вектора знаходяться близько один до одного, то можна говорити про те, що слова близькі один до одного за значеннями. Мова йде не тільки про однокорінні слова: вектор, який представляє слово «мама» буде ближче до вектора «тато», ніж до вектора «синхрофазотрон».

Векторні моделі будуються завдяки машинному навчанню з використанням величезних корпусів текстів (добре для цих цілей підходять сайти-агрегатори новин або, наприклад, статті на «Вікіпедії»). Крім теоретичних і практичних робіт у галузі дистрибутивної семантики та лексикографії, такі моделі допомагають у навчанні голосових помічників і роботі інтернет-пошуковиків.

Зрозуміло, ефективність і точність векторних моделей цілком залежить від вибірки: якщо навчити її на серії оповідань Клайва Льюїса, то слова «дівчинка» і «лев» будуть ближче один до одного, ніж слова «дівчинка» і «лялька». Модель при цьому працюватиме коректно, але не відповідатиме дійсності. На жаль, подібні ситуації зустрічаються і при використанні для навчання менш специфічних корпусів. Наприклад, word2vec, навчена на текстах Google News, сильно схильна до стереотипів: слово «почесний» ближче до слова «чоловік», а «підкоряється» - до слова «жінка».

Програмісти намагаються позбавити векторні моделі від появи подібних казусів: розширенням вибірки текстів або винятком найбільш дивних випадків. Але ці випадки можуть бути і корисні: наприклад, у соціологічних дослідженнях. У своїй новій роботі вчені зі Стенфордського університету за участю Дена Журафскі (Dan Jurafsky) використовували word2vec для побудови векторних уявлень слів з текстів Google Books і COHA (Corpus of Historical American English). Обидва використаних ресурси дозволяють шукати матеріали за роками: вченим, таким чином, вдалося розбити тексти, датовані в проміжку від 1900 до кінця століття, на десятиліття. Вчені побудували векторні уявлення слів, які найбільше відповідають жінкам і азіатам, і порівняли їх з доступними демографічними даними за кожен період.

Дослідникам вдалося виявити кореляцію (p < 0,003) між векторними моделями і реально поширеними професіями серед жінок за кожен період. Проте автори зазначили, що навіть у тих професіях, де число жінок і чоловіків було приблизно рівним, перевага векторних моделей пов'язаних з ними слів була в бік чоловіків - тому вчені простежили і за ухилом у бік гендера протягом часу. Виявилося, що і відмінності в найбільш затребуваних професіях і пов'язаних з ними векторних уявленнях слів зменшувалися, починаючи з 50-х років, наближаючись до нуля: це означає, що з часом гендерний ухил у професіях знижувався. Те ж саме відбувалося і для групи етнічних меншин: в даному випадку - азіатів.

Потім вчені вирішили подивитися, як змінювалися найбільш близькі до жінок і азіатам прикметники, і як ці зміни пов'язані з реально відбувалися у відповідний час подіями в США. Так, наприклад, у 1910-х роках серед найближчих до жінки словами були «мрійлива» і «мила», у 1950-х - «несмачна» і «згодна», а в 1990-х - «штучна» і «ненатуральна». Змінилися векторні уявлення і для азіатів: у 1910-х їх описували як «заздрісних», у 1950-х - «неорганізованими», а в 1990-х - «стриманими».

Дослідники порівняли коефіцієнти кореляції між найпоширенішими прикметниками для жінок і азіатів по роках. Виявилося, що коефіцієнт падав (тобто прикметники стали сильно відрізнятися) для слів, пов'язаних з жінками, починаючи з кінця 60-х років: у той час у США процвітав феміністський рух. Слова, що описують азіатів, почали відрізнятися на початку 60-х - під час другої хвилі імміграції з країн Азії - а також на початку вісімдесятих, коли приріст нових іммігрантів злегка зменшився, а у старих з'явилися нащадки.

Зміни в мові відображають і зміни в суспільстві, яке цією мовою користується. Мова йде не тільки про масштабні зміни, які відбуваються і осідають протягом декількох століть: зміни - навіть відбуваються протягом порівняно малого часу - добре відображає лексика. Автори статті показали, що навіть «помилки», яких розробники намагаються позбутися, аналізуючи природну мову автоматично, можуть служити інструментом і для її вивчення, і для вивчення групи його носіїв.

Використання векторного перегляду слів може стати у пригоді і для створення абсолютно нових інструментів. Наприклад, минулого року вчені застосували word2vec для написання кухні кухні у стилі фьюжн: у ній є рецепт лазаньї, якою адаптований для японців і включає в себе ризик. А ось американські вчені на основі аналізу наукових публікацій навчилися передбачати результати процесу отримання матеріалів.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND