Pagrindinis Srautinio Perdavimo Paslaugos Dirbtinis intelektas išmoksta apgauti Q * bertą taip, kaip dar niekas nėra daręs

Dirbtinis intelektas išmoksta apgauti Q * bertą taip, kaip dar niekas nėra daręs



Dirbtinis intelektas sugebėjo apgauti geriausius žmonijos pasiūlymus, atradęs klasikinio arkadinio žaidimo Q * bert išnaudojimą ir bėgdamas su juo.

Nors anksčiau dirbtinio intelekto iteracijos tinkamai atlikdavo Q * bert, tam tikru metu sužinodamas, kaip žaidimas veikia, jis atranda išnaudojimą, leidžiantį surinkti beprotiškus taškus. Natūralu, kad kaip ir bet kuris žaidėjas, žaidžiantis taškų ieškojimu, pakartoja procesą, kad galėtų padidinti savo rezultatą kuo efektyviau.

Žemiau esančiame vaizdo įraše galite pamatyti, kaip dirbtinis intelektas veikia aplink platformas. Iš pradžių atrodo, kad be tikslo šokinėja tarp platformų. Užuot matęs žaidimo eigą į kitą etapą, Q * bertas įstringa kilpoje, kurioje pradeda mirksėti visos jos platformos - čia dirbtinis intelektas gali tada nusimesti ir rinkti didžiulius taškus.

SKAITYKITE TOLIAU: Pagaliau buvo diskredituotas vienas iš prieštaringiausių žaidimų įrašų

kaip kreivinti tekstą paint.net

Kaip dirbtinis intelektas laimėjo Q * bert karą

Sumušęs visų laikų titulo rekordą, dirbtinis intelektas užėmė neįmanomai aukštą rezultatą dėl savo evoliucijos strategijos algoritmo programavimo. Evoliucijos strategijos (ES) skiriasi nuo įprasto sustiprinimo mokymosi (RL), kurį naudoja tradicinis dirbtinis intelektas, nes jis matomas labiau keičiamo dydžio dėl savo mokymosi iš kartų.

Kiekviena mokymosi kilpa vadinama karta ir ji tęsia savo užduotį, kol įvykdoma nustatyta sąlyga (šiuo atveju - aukštas balas). Su kiekviena karta iš kartos intelektas sugeria ankstesnės kartos žinias, todėl geriau pasiekia tą patį tikslą ir jį pranoksta. Tęskite ir gausite dirbtinį intelektą, kurio užduotis yra visiškai neprilygstama. Čia taip atsitiko su Q * bert balu.

Apibūdinta popierius , kurią praėjusią savaitę paskelbė Freiburgo universiteto (Vokietija) mokslininkai, atrodo, kad klaida nebuvo žinomas kiekis. Tiesą sakant, nors jie per daug nesistebi radę klaidą, įdomu pamatyti, kaip dirbtinis intelektas tada žengė į priekį ir išmoko jį išnaudoti kiekvieną kartą žaisdamas, kad padidintų savo įvarčių potencialą.

SKAITYKITE TOLIAU: Šis dirbtinis intelektas išmoko įvaldyti „Super Mario Bros“

Norėdami rasti klaidą, agentas pirmiausia turėjo išmokti beveik užbaigti pirmąjį lygį - tai nebuvo padaryta vienu metu, bet naudojant daugybę mažų patobulinimų, paaiškino mokslininkai Registras . Įtariame, kad tam tikru metu mokymuose vienas iš atžalų sprendimų susidūrė su klaida ir gavo daug geresnį balą, palyginti su savo broliais ir seserimis, o tai savo ruožtu padidino jo indėlį į atnaujinimą - jo svoris buvo didžiausias pagal svertinį vidurkį. Tai lėtai perkėlė sprendimą į erdvę, kur vis daugiau atžalų pradėjo susidurti su ta pačia klaida.

Mes nežinome tikslių sąlygų, kuriomis atsiranda klaida; gali būti, kad jis pasirodo tik tuo atveju, jei agentas vadovaujasi modeliu, kuris atrodo neoptimalus, [pavyzdžiui, kai agentas sugaišta laiko ar net praranda gyvybę]. Jei taip buvo, standartiniam RL būtų labai sunku rasti klaidą: jei naudosite papildomus atlygius, sužinosite strategijas, kurios greitai duoda tam tikrą atlygį, o ne mokymosi strategijas, kurios kurį laiką negauna daug naudos ir tada staiga laimėti didelis.

Žiūrėkite susijusius „Dragster“ čempionas Toddas Rogersas po 35 metų ką tik prarado karūną Šis dirbtinis intelektas 17 dienų mokėsi įvaldyti „Super Mario Bros 1-2“ Stebėkite, kaip šis dirbtinis intelektas išmoksta vairuoti „GTA V“ sistemoje „Twitch“

Nepaisant nuostabių botų rezultatų, mokslininkai nesako, kad tai yra ES mokymosi per RL čempionas. Tiesą sakant, abi sistemos turi savų problemų, o jų derinys dažniausiai laikomas geriausiu variantu.

Tas pats ES metodas kituose „Atari“ žaidimuose neatnešė tų pačių teigiamų rezultatų. Kita vertus, RL yra atsakingas už įrašų sumušimą kairėje, dešinėje ir centre, įskaitant geriausio pasaulio GO žaidėjo sumušimą. ES vis dar turi savo vietą dalykuose, ir iš tikrųjų tai, kaip „Nvidia“ atlieka daugybę dirbtinio intelekto mokymų, nes reikalauja daugiau skaičiavimo galios, tačiau ilgesniam laikui pasiekia geresnių rezultatų.

Nepaisant to, kuris būdas taps AI kūrimo ateitimi, bent jau šis botas, apgaudinėjantis sistemą, nėra toks blogas dabar gėdingas vaizdo žaidimų pasaulio čempionas .

Įdomios Straipsniai

Redaktoriaus Pasirinkimas

„Microsoft Edge“ visuotinės medijos valdikliai gauna mygtuką „Atmesti“
„Microsoft Edge“ visuotinės medijos valdikliai gauna mygtuką „Atmesti“
Kaip atsimenate, „Microsoft“ dirbo prie patobulintos „Global Media Controls“ funkcijos versijos, skirtos jų naujausiam „Chromium“ pagrįstam „Edge“, leidžiančiam valdyti visas naršyklės aktyvias medijos sesijas iš vieno skrajutės. Šiandien „Canary Edge“ sukurta, jei keli „Global Media Controls“ funkcijos patobulinimai atliekami. Skelbimas „Microsoft“
Kaip įterpti parašą į „Gmail“.
Kaip įterpti parašą į „Gmail“.
Leiskite „Gmail“ automatiškai pridėti kelias teksto eilutes (pvz., bendrinti kontaktinę informaciją arba reklamuoti savo įmonę) į el. laiškus.
Išjunkite arba įgalinkite „Photos App“ patvirtinimo ištrynimą sistemoje „Windows 10“
Išjunkite arba įgalinkite „Photos App“ patvirtinimo ištrynimą sistemoje „Windows 10“
Kaip išjungti arba įgalinti „Photos App“ ištrinimo patvirtinimą sistemoje „Windows 10“. „Windows 10“ pristatoma su „Photos“ programa, kuri pakeitė „Windows Photo Viewer“ ir „Photo Gallery“. Jo plytelė prisegta meniu Pradėti. Jis yra glaudžiai integruotas su paties „Microsoft“ debesies sprendimu „OneDrive“. „Windows 10“ nuotraukų programa leidžia jums
Kaip ištaisyti „Photoshop“ „Scratch Disk Full“ klaidas
Kaip ištaisyti „Photoshop“ „Scratch Disk Full“ klaidas
Sužinokite, kas yra „Photoshop“ įbrėžimo disko pilnas klaida, kaip ją ištaisyti ir kaip tvarkyti „Photoshop“ nustatymus, kad našumas būtų geriausias.
Kaip gauti „Snapchat“ trofėjus
Kaip gauti „Snapchat“ trofėjus
Norite pridėti daugiau „Snapchat“ trofėjų prie savo „Trophy“ dėklo? Pateikiame trofėjų sąrašą ir instrukcijas, kaip juos atrakinti.
Kaip pakeisti balso pašto sveikinimą „RingCentral“.
Kaip pakeisti balso pašto sveikinimą „RingCentral“.
Kai pirmą kartą sukuriate RingCentral paskyrą, balso pašto pasisveikinimas yra nustatytas pagal numatytuosius nustatymus. Jei balso pašto sveikinimui norite naudoti savo įrašą, galite lengvai jį pakeisti RingCentral mobiliojoje programėlėje arba svetainėje.
Kaip sukurti „Netflix HD“ arba „Ultra HD“: lengviausias būdas pakeisti „Netflix“ vaizdo nustatymus
Kaip sukurti „Netflix HD“ arba „Ultra HD“: lengviausias būdas pakeisti „Netflix“ vaizdo nustatymus
Kalbant apie žiniasklaidos srautą, „Netflix“ yra populiarus užsakomųjų pramogų šaltinis. Sunku rasti geresnę programą nei „Netflix“. Netflix yra viena didžiausių filmų ir TV laidų bibliotekų visame pasaulyje