Językoznawstwo z komputera

04/02/2015
Autor: 
Redakcja

Informatycy pracujący na MIT odkryli nowe źródło wiedzy o językach. Jest nim analiza komputerowa błędów składniowych, jakie popełniają rodzimi użytkownicy tych języków pisząc po angielsku.

Niecałe dwa lata temu Borys Katz, rosyjski naukowiec pracujący na Massachussets Institute of Technology (MIT) poprosił swojego doktoranta - również pochodzącego z Rosji - Jewgienija Berzaka, aby ten napisał algorytm umożliwiający automatyczną identyfikację języka ojczystego autora tekstu napisanego po angielsku. Katza zainspirowała obserwacja, że Rosjanie zazwyczaj popełniają bardzo podobne błędy, gdy piszą i mówią po angielsku – np. często w sposób nieprawidłowy używają rodzajników. Postanowił stworzyć program komputerowy, który poprawiałby typowe błędy językowe, jakie popełniają użytkownicy poszczególnych języków. Jednak ani Katz ani Berzak nie zdawali sobie wówczas sprawy z tego, że program, który stworzą będzie miał cały szereg innych zastosowań.

Z pomocą Katza oraz Roi'a Reicharta, który na staż podoktorski na MIT przyjechał z Hajfy, z Izraela, Berzak wykonał zadanie. Informatycy z MIT wprowadzili następnie do pamięci komputera około 1000 esejów napisanych przez studentów pochodzących z różnych części świata, którzy byli rodzimymi użytkownikami 14 różnych języków. Na początek program przeanalizował każdy esej pod względem szyku wyrazów w każdym zdaniu z osobna, następnie wyodrębnił błędy układające się w pewne prawidłowości. Kolejnym krokiem było  połączenie tych prawidłowości w grupy, a na koniec skorelowanie ich z informacją na temat języków ojczystych autorów analizowanych esejów.

Drzewo genealogiczne języków
Wyniki analiz zaskoczyły badaczy. Komputer do pewnego stopnia mylił się – np. przypisywał błędy popełniane przez Rosjan Polakom i odwrotnie; niektóre błędy Hiszpanów, szły na konto Włochów i Francuzów itp. Jednak po zastanowieniu się, naukowcy doszli do wniosku, że maszyna, jakby przy okazji „odkryła” związki pomiędzy językami, jakimi władali autorzy esejów. Następnym krokiem było pogrupowanie języków na podstawie wspólnych błędów i wtedy Katz, Berzak i Reichart otrzymali drzewo genealogiczne języków – identyczne z tym, którego stworzenie zajęło językoznawcom całe dziesięciolecia.

Nie mogłem uwierzyć własnym oczom: polski i rosyjski znajdowały się w jednej grupie, francuski, włoski, hiszpański i portugalski w innej, czyli języki słowiańskie razem, romańskie razem itd. – wspomina Katz. – Zdumiewające jest także to, że nasz program zrobił to bez znajomości choćby jednego słowa w żadnym z tych języków – dodaje Berzak.

Jednak, zdaniem Katza, Berzaka i Reicharta, możliwości programu sięgają znacznie dalej niż odkrywanie rzeczy, które już dawno zostały odkryte. Teraz można pójść o kolejny krok dalej i zidentyfikować cechy typologiczne języków, które nie zostały zbadane dotąd przez językoznawców.

Tylko 14 proc. danych
Poprzez "cechy typologiczne" Berzak ma na myśli wzorce syntaktyczne, których językoznawcy używają do klasyfikowania języków - np. szyk wyrazów w zdaniu, czyli kolejność, w jakiej występują w danym języku podmiot, orzeczenie i dopełnienie; w jaki sposób tworzy się przeczenia; czy rzeczownikom towarzyszą rodzajniki czy nie. Atlas struktur języków świata (World Atlas of Language Structures - WALS), czyli używana przez językoznawców baza danych językowych, opisuje około 200 takich cech i zawiera dane na temat ponad dwóch tysięcy języków. Jednak wśród tych 2000 języków, wiele jest takich, na których temat w Atlasie jest zaledwie garść informacji – dzieje się tak, dlatego, że reszta cech dla nich charakterystycznych nie została dotąd zidentyfikowana, a prace postępują bardzo powoli. Nawet dla języków europejskich, które są niewątpliwie najlepiej zbadane, wciąż brakuje wielu danych. Jak tłumaczy Berzak, w momencie, gdy wraz z Katzem i Reichartem prowadzili to badanie, do WALS zostało wprowadzonych zaledwie 14 proc. danych.

W uzupełniania danych w WALS, językoznawcom może przyjść z pomocą nowy program opracowany na MIT. Berzak podaje przykład używanego w Afryce języka Tswana, dla którego istnieje tylko pięć rekordów w WALS, pomimo że używa go prawie sześć milionów osób. Jego zdaniem, pozyskanie tekstów napisanych po angielsku przez użytkowników języka Tswana nie powinno być specjalnie trudne.

Czy posługujemy się elementami gramatyki abstrakcyjnej
Program może  także pomóc w odpowiedzi na pytania, jakie stawia sobie językoznawstwo, a które nie zostały dotąd rozstrzygnięte. – Toczy się dyskusja do jakiego stopnia ucząc się nowego języka, zaczynamy od zera uczyć się jego struktury, a może traktujemy go jak zmodyfikowaną wersję naszego własnego języka?  – tłumaczy Robert Frank, dyrektor instytutu językoznawstwa na uniwersytecie Yale. -  Niektórzy badacze uważają, że modyfikacja ta dokonuje się na dość podstawowym poziomie. Inni natomiast uważają, że posługujemy się elementami gramatyki abstrakcyjnej – dodaje. Zdaniem Franka, program napisany na MIT może posunąć tę debatę naprzód. – Fakt, że możemy zidentyfikować cechy charakterystyczne dla danego języka na podstawie błędów składniowych, jakie popełniają jego rodzimi użytkownicy w angielskim, wskazuje na to, że gramatyka pierwszego języka najwyraźniej pozostawia swój ślad również na sposobie użycia angielskiego. A to z kolei oznacza, że ucząc się nowego języka najwyraźniej nie zaczynamy od zera - konkluduje Frank.

Czy więc stworzony przez Katza, Berzaka i Reiharta program jeszcze ujawni swoje kolejne zastosowania. – Jestem  ostrożnym optymistą i cieszę się z góry na to, że być może nawet bardziej abstrakcyjne właściwości innych języków znajdą swoje odbicie w danych, jakich dostarczy opracowany na MIT program – dodaje Frank.

Źródło: MIT News office; www.npr.org

O tym, że analiza komputerowa dźwięków może pomóc w odtworzeniu fonetyki dawno wymarłych języków, pisaliśmy już w wiadomości: Komputerowy Kamień z Rosetty