Problém pohlavia prekladu Google Translate (a prekladača Bing a systranu ...)

Google Translate a ďalšie obľúbené prekladateľské platformy často poskytujú neúmyselne sexistické preklady, kde okrem iného lekári sú muži a učitelia sú ženy. Dôvod, prečo súvisí s komplexnou kombináciou algoritmov, lingvistiky a zdrojových materiálov.

Problém pohlavia prekladu Google Translate (a prekladača Bing a systranu ...)

Google Translate je najpopulárnejšou platformou na preklad webov na svete, ale jeden z výskumníkov Stanfordskej univerzity tvrdí, že skutočne nerozumie pohlaviu a pohlaviu. Londa Schiebinger, ktorá vedie Stanford’s Rodové inovácie project, hovorí, že výber zdrojových databáz spoločnosťou Google spôsobuje štatistickú predpojatosť voči mužským podstatným menám a slovesám v preklade. V papieri na rod a spracovanie prirodzeného jazyka , Schiebinger ponúka presvedčivý dôkaz, že zdrojové texty použité s prekladovými algoritmami Google vedú k neúmyselnému sexizmu.

Strojový preklad a pohlavie

V recenzovanej prípadovej štúdii publikovanej v roku 2013 Schiebinger ilustroval, že Prekladač Google má tendenciu meniť rodovo neutrálne anglické slová (ako napr. , alebo pracovné názvy ako napr profesor a lekára ) do mužskej podoby v iných jazykoch, akonáhle je slovo preložené. Niektoré rodovo neutrálne anglické slová sú však preložené do ženskej podoby. . . ale iba vtedy, ak vyhovujú určitým rodovým stereotypom. Napríklad rodovo neutrálne anglické výrazy obžalovaný a sestra preložiť do nemčiny ako obžalovaný a sestra. Obžalovaný prekladá sa ako muž, ale zdravotná sestra automaticky sa prekladá ako žena.

Schiebinger tvrdí, že tam, kde sa Prekladač Google skutočne nachádza, chýba kontext pre rodovo neutrálne slová v iných jazykoch pri ich preklade do angličtiny. Schiebinger spísala článok o svojej práci v španielskych novinách Krajina do angličtiny prostredníctvom Prekladača Google a konkurenčnej platformy Systran. Google Translate aj Systran preložili rodovo neutrálne španielske slová suyo a kocky ako svoje a povedal, napriek tomu, že Schiebinger je žena.



koľko dní ešte do roku 2020

Tieto druhy slov prinášajú konkrétne problémy v Bing Translate, Google Translate, Systran a ďalších populárnych platformách strojového prekladu. Inžinieri spoločnosti Google, ktorí pracujú na Prekladači, povedali Co.Labs, že preklad všetkých slov, vrátane rodových, je primárne vážený štatistickými vzormi v prekladaných pároch dokumentov, ktoré sa nachádzajú online. Pretože kocky sa dajú prekladať tak, ako povedal alebo povedala, algoritmy Translate sa pozerajú na kombinácie kociek v spojení so susednými slovami a zisťujú, aké sú najčastejšie preklady týchto kombinácií. Ak sa kocky v prekladoch, ktoré spoločnosť Google získava, vykresľuje častejšie, ako hovorí, Prekladač ich zvyčajne vykreslí ako mužské než ženské. Tím Prekladača Google navyše dodal, že ich platforma používa iba jednotlivé vety na kontext. Rodové podstatné mená alebo slovesá v susedných vetách nie sú vážené z hľadiska určovania kontextu.

Východiskový materiál, kultúrny kontext a pohlavie

Schiebinger pre Co.Labs povedal, že projekt vznikol z dokumentu napísaného študentom, ktorý pracoval na problémoch so spracovaním prirodzeného jazyka. V júli 2012 sa na Stanfordskej univerzite uskutočnil workshop s externými výskumníkmi, ktorý bol po následnom preskúmaní prerobený na strojový preklad.

Prekladač Google, ktorý stojí pred takmer nemožným cieľom presného prekladu svetových jazykov v reálnom čase, čelí problémom s pohlavím už roky. Ku cti spoločnosti Google slúži, že Mountain View pravidelne vylepšuje algoritmy Prekladača Google, aby opravil nepresnosti prekladu. Algoritmy prekladu jazykov sú neslávne zložité. Inžinieri v službách Google, Bing, Systran a ďalších firmách nemusia brať do úvahy iba gramatiku - musia brať do úvahy kontext, podtext, implikované významy, kultúrne výstrednosti a milión ďalších subjektívnych faktorov. . . a potom z nich urobte kód.

Tieto nepresnosti však existujú - najmä pokiaľ ide o pohlavie. V jednom prípade minulý rok používatelia zistili, že prekladatelia Muži sú muži a muži by mali upratovať kuchyňu do nemčiny muži sa stali mužmi a ženy by mali upratovať kuchyňu - čo znamená, že muži sú muži a ženy by mala vyčistiť kuchyňu. Našiel sa ďalší používateľ Prekladača Google v nemeckom jazyku zaujatosť práce vo viacerých jazykoch -rodovo-jazykové pojmy v anglickom jazyku Učiteľka francúzštiny, učiteľka v materskej škole, a učiteľ varenia všetky sa objavili vo francúzskom a nemeckom vydaní Prekladača Google v ženskej podobe, zatiaľ čo inžinier, lekár, novinár a prezident boli preložení do mužskej podoby.

stream macy's parade nbc naživo

Nataly Kelly, autorka V preklade: Ako jazyky formujú náš život a transformujú svet, ktorého firma ponúka produkty jazykovej technológie, povedal Co.Labs, že mužská predpojatosť v strojovom preklade je extrémne bežná. Ak na preklad použijete štatistický prístup, systém vyťaží všetky predchádzajúce preklady a podľa frekvencie obslúži najpravdepodobnejšieho kandidáta na správny preklad. Vzhľadom na to, že mužské zámená sú v histórii v mnohých jazykoch a kultúrach nadmerne zastúpené, strojový preklad spravidla odráža túto historickú rodovú zaujatosť, povedala Kelly.

Výsledky môžu byť veľmi mätúce, dokonca nepresné. Napríklad v Prekladači Google, ak prekladáte inžinier do španielčiny to vychádza ako muž inžinier, ale ak dáš ženská inžinierka, dostanete ženský sexuálny inžinier, čo znamená niečo podobné mužský inžinier ženského pohlavia. Znie to prinajmenšom dosť zvláštne v španielčine! Ak píšete ženská inžinierka do Bing Translate, dostanete inžinier, čo je technicky správne. Ale stále musíte špecifikovať Žena s cieľom dosiahnuť ženský výsledok. Nemusíte špecifikovať mužský inžinier získať inžinier. Stačí zadať inžinier. [Vo väčšine systémov strojového prekladu existuje inherentná rodová predpojatosť.

solárne panely pri výpadku prúdu

Štatistická povaha korpusu

Dôvod, prečo sa to deje, je štatistický. V každom jazyku, v ktorom Prekladač Google funguje, algoritmy spracúvajú význam, gramatiku a kontext prostredníctvom veľkého počtu predtým nahraných dokumentov. Tieto dokumenty, ktoré sa líšia jazyk od jazyka, určujú, ako služba Google Translate skutočne funguje. Ak má zdrojový materiál použitý na preklady súhrnnú odchýlku, pokiaľ ide o preferenciu jedného pohlavia pred druhým, prejaví sa to v prekladoch prijatých používateľmi.

Keď sa pýta používateľ v službe Skupiny Google zaujatosť mužského pohlavia v hebrejských prekladoch v roku 2010 Xi Cheng spoločnosti Google poznamenal, že Prekladač Google je plne automatizovaný strojom; nikto výslovne neukladá žiadne pravidlá; preklad je generovaný podľa štatistickej povahy korpusu, ktorý máme.

Podľa Schiebingera systémy strojového prekladu, ako je Google Translate, používajú dva samostatné druhy korpusov. Paralelný korpus s textom v jednom jazyku, ktorý sa používa na porovnanie prekladu v inom jazyku, zatiaľ čo veľký jednojazyčný korpus v cieľovom jazyku, do ktorého sa prekladá, sa používa na určenie umiestnenia gramatiky a slova. Ak sú v použitom korpuse systematicky uprednostňované mužské alebo ženské tvary slov, vedie to algoritmus k prekladu v prospech tohto konkrétneho pohlavia.

Strojový preklad v konečnom dôsledku závisí od prekladateľov a lingvistov, ktorí poskytnú kontext algoritmom a zdrojovému materiálu, ktorý používajú. Google Translate, Bing Translate a Systran odvádzajú skvelú prácu pri poskytovaní okamžitých prekladov v ohromujúcej škále jazykov. Výzvou pre vývojárov prekladateľských platforiem je, ako ďalej zdokonaliť svoje produkty a zvýšiť presnosť - niečo, s čím sa v budúcnosti stretneme viac.

[ Obrázok učiteľa: Kolekcia Everett cez Shutterstock ]