Apple FS-DFM pret Copilot: cīņa par ģeneratīvo mākslīgo intelektu

  • FS-DFM piedāvā dažu soļu difūzijas modeli, kas ģenerē garu tekstu līdz pat 128 reizēm ātrāk nekā autoregresīvās sistēmas, vienlaikus saglabājot konkurētspējīgu kvalitāti.
  • Apple plāno integrēt šo tehnoloģiju Siri, Apple Intelligence, iWork un Xcode, savukārt Microsoft stiprina Copilot ar jauniem modeļiem, piemēram, MAI-Voice-1 un MAI-1-preview.
  • Copilot jau piedāvā stabilu, uzlabotu teksta, attēlu un balss ģenerēšanu ar dziļu integrāciju pakalpojumā Microsoft 365 un konsolidētu abonēšanas modeli.
  • Apple panākumi būs atkarīgi no tā, kā tas apvienos FS-DFM un nākotnes AppleGPT tipa modeļus ar reālu un noderīgu integrāciju iOS, macOS un tā profesionālajos rīkos.

FS-DFM Apple pret Copilot

Pēdējos mēnešos sacensība par ģeneratīvo mākslīgo intelektu ir uzkarsusi, un tagad arēnā ienāk jauns spēlētājs ar Kupertino akcentu: modelis Apple FS-DFM, kas paredzēts garu tekstu ģenerēšanai brutālā ātrumāKamēr Microsoft stiprina Copilot ar jauniem modeļiem un Google turpina paātrināt tā attīstību, Apple cenšas mazināt plaisu ar tehnoloģiju, kas uz papīra solās būt patiesa revolūcija.

Šis konteksts ir nozīmīgs: mēs runājam par nozari, kurā katra sekunde ir svarīga un kur teksta kvalitāte, spēja sekot instrukcijām un integrācija ar ikdienas rīkiem ir ļoti svarīga. Šādā scenārijā ir vērts mierīgi sev pajautāt: Vai FS-DFM tiešām var konkurēt ar Copilot un modeļiem, kas to darbina?Vai varbūt viņš ierodas pārāk vēlu uz ballīti, kas jau ir pilnā sparā?

Kas ir FS-DFM un kāpēc tas rada tik lielu ažiotāžu?

Apple inženieru grupa sadarbībā ar Ohaio štata universitāte ir prezentējusi FS-DFM (dažu soļu diskrētas plūsmas saskaņošanas) metodi.FS-DFM — jauns valodas modelis, kas īpaši izstrādāts, lai ārkārtīgi ātri ģenerētu garu tekstu, nepazeminot kvalitāti. Saskaņā ar publicēto pētījumu FS-DFM spēj ģenerēt garas secības līdz pat 128 reizes ātrāk nekā tradicionālie autoregresīvie modeļi ChatGPT stilā, vienlaikus saglabājot salīdzināmu kvalitātes līmeni.

Šis modelis koncentrējas uz Efektīva un stabila teksta ģenerēšana pat garās daļāsTas padara to par vienu no interesantākajām pieejām, ko esam redzējuši uzdevumiem, kuros latentums ir kritisks: reāllaika sarunu palīgi, dokumentu rakstīšana, garas atbildes produktivitātes lietotnēs un parasti jebkurā gadījumā, kad lietotājs nevēlas gaidīt, kamēr teksts ieplūst.

Kā darbojas FS-DFM: no autoregresīvas pieejas līdz difūzijai dažos soļos?

GPT tipa klasiskajos valodu modeļos tiek izmantota autoregresīva shēma: Viņi ģenerē tekstu pa marķierim, vārdu pa vārdam.Šī pieeja katrā solī aprēķina, kura ir nākamā visticamākā teksta vienība. Tā piedāvā ļoti labu kontroli un kvalitāti, taču tai ir secīga būtība: katrs jauns marķieris ir atkarīgs no iepriekšējā, kas ierobežo ātrumu, īpaši strādājot ar gariem tekstiem.

Atšķirības starp Copilot viedajām, ātrās reaģēšanas, dziļākas domāšanas, studiju un mācīšanās un meklēšanas funkcijām
saistīto rakstu:
Copilot: atšķirības starp viedumu, ātro reaģēšanu, dziļāku domāšanu, studijām un mācīšanos un meklēšanu

FS-DFM laužas pie šīs filozofijas, iedvesmojoties no difūzijas modeļi, kas ir kļuvuši slaveni attēlu ģenerēšanāModelis nevis iet vārds pa vārdam, bet gan paralēli ģenerē vairākus teksta fragmentus un tos pilnveido secīgās iterācijās. Sākotnējais teksts var būt trokšņains, nesakarīgs vai nepilnīgs, taču katrā uzlabošanas kārtā modelis labo, reorganizē un pulē rezultātu, lai to tuvinātu augstas kvalitātes gala rezultātam.

Apple ne tikai kopē tradicionālo apraidi; tas izmanto tehniku, kas pazīstama kā plūsmas saskaņošana, kas paātrina procesu, likvidējot lielu daļu starpposma iterācijuTā vietā, lai veiktu simtiem vai tūkstošiem mazu precizēšanas soļu, FS-DFM iemācās spert garākus "soļus" iespējamo tekstu telpā, lai ļoti nedaudzos posmos konverģētu uz saskaņotu un plūstošu tekstu.

Šīs dažpakāpju pieejas atslēga ir tā, ka modelis iemācās tieši pārvietoties starp sākotnējo “troksni” un galīgo tekstu bez nepieciešamības iziet cauri visiem standarta izplatīšanai raksturīgajiem starpposmiem. Tas ievērojami samazina ģenerēšanas laiku, vienlaikus saglabājot stabilu kopējo teksta struktūru, kas ir īpaši vērtīgi, veidojot garas rindkopas vai veselus dokumentus.

FS-DFM apmācības trīs fāzes

Lai šī shēma darbotos, Apple un Ohaio štata universitātes komanda ir izstrādājusi trīspakāpju apmācības procesu, kura mērķis ir līdzsvarojot ātrumu, stabilitāti un valodas precizitātiTas nav tikai izplatīšanas modeļa ieviešanas un cerības uz labāko jautājums, bet gan rūpīga viņa vadīšana, lai viņš iemācītos labi rakstīt ļoti dažos soļos.

Pirmajā fāzē modelis iemācās darboties ar dažādu precizēšanas iterāciju skaituTas ļauj FS-DFM pielāgoties scenārijiem, kuros ārkārtīgi svarīgs ir ārkārtējs ātrums, kā arī tiem, kuros var veikt papildu soli, lai vēl vairāk uzlabotu rezultātu, trenējot spēju pakāpeniski uzlabot tekstu atbilstoši pieejamo soļu skaitam.

Otrajā fāzē tiek ieviests galvenais modelis (lielāks un jaudīgāks “skolotājs”), kas vada FS-DFMŠis mācību modelis darbojas kā kvalitātes etalons, sniedzot piemērus un labojumus, kas palīdz FS-DFM precizēt smalkākas detaļas: vārdu izvēli, semantisko koherenci, stilu, konsekvenci garos tekstos… Tādā veidā vieglākais modelis iemācās tuvināti darboties daudz lielākas sistēmas veiktspējai.

Visbeidzot, trešajā fāzē tas Tie optimizē atsevišķus precizēšanas soļus, lai panāktu ātrāku un stabilāku konverģenci.Ideja ir tāda, ka katrā no šīm nedaudzajām iterācijām modelis maksimāli izmanto pieejamo informāciju, inteliģenti samazina "troksni" un saglabā teksta struktūru, neieviešot pēkšņas kļūdas vai dīvainus tematu lēcienus.

Ātrums, neupurējot kvalitāti: testi pret Dream un LLaDA

Viens no pētījuma pārsteidzošākajiem aspektiem ir tas, ka FS-DFM spēj ģenerēt pilnu tekstu tikai astoņās ļoti ātrās iterācijāsTikmēr citu valodu apraides modeļiem var būt nepieciešami vairāk nekā tūkstoš soļu, lai uzlabotu saturu līdz saprātīgam līmenim. Latentuma atšķirība ir milzīga, īpaši, ja ņem vērā personiskās ierīces, piemēram, iPhone vai Mac.

Salīdzinājumos FS-DFM saskaras ar lielākiem difūzijas modeļiem, piemēram, Sapnis (ar 7.000 miljardiem parametru) vai LLaDA (ar 8.000 miljardiem parametru)Neskatoties uz mazāku parametru skaitu, Apple modelis sasniedz labākus rezultātus divos fundamentālos valodas apstrādes rādītājos: perpleksitātē un entropijā, kas kalpo, lai mērītu ģenerētā teksta dabiskumu un stabilitāti.

A Zemāka apjukuma pakāpe norāda, ka modelis labāk prognozē faktiskās vārdu secības.Tas nozīmē, ka tā radītā valoda ir līdzīgāka cilvēku valodai. Vienlaikus stabilāka entropija liecina, ka modelis saglabā veselīgu līdzsvaru starp radošumu un konsekvenci, nekļūstot haotisks vai pārmērīgi atkārtojošs. Abos aspektos FS-DFM uzrāda skaidras priekšrocības salīdzinājumā ar šiem apjomīgākajiem difūzijas modeļiem.

Šis rezultāts ir īpaši svarīgs, ņemot vērā, ka ierīcēs ar ierobežotiem resursiem, Mazāks, ātrāks modelis, kas saglabā konkurētspējīgu kvalitāti, varētu būt daudz noderīgāks. ka gigants, kas var darboties tikai lielos datu centros. Tieši tur Apple vēlas radīt pārmaiņas ar saviem produktiem un pakalpojumiem.

Pētījuma publicēšana un pieejamības nodrošināšana pētniecības aprindām

FS-DFM Apple pret Copilot

FS-DFM apraksts ir publicēts [datums]. arXiv ar nosaukumu “FS-DFM: ātra un precīza garo tekstu ģenerēšana ar dažu soļu difūzijas valodas modeļiem” vai līdzīgi, detalizēti aprakstot gan arhitektūru, gan apmācības procesu, kā arī novērtējumus, salīdzinot tos ar citiem modeļiem. Rakstā iekļauti arī konkrēti piemēri, kas parāda, kā ģenerētais teksts mainās un uzlabojas dažādās iterācijās.

Apple ir paudis savu nodomu Atbrīvojiet modeļa kodu un kontrolpunktusTas ļautu pētniekiem un izstrādātājiem eksperimentēt ar FS-DFM, pielāgot to jaunām jomām vai integrēt savās lietojumprogrammās. Tradicionāli slēgtā vidē, piemēram, Apple vidē, šo soli var interpretēt kā veidu, kā iegūt atbilstību mākslīgā intelekta zinātnieku aprindās.

Ja šī pakāpeniskā izplatīšanas pieeja nostiprināsies, tā varētu kļūt par faktisku teksta ģenerēšanas standartu sistēmās, kurās reakcijas laiks ir kritiski svarīgsTieši šādos scenārijos Apple vēlas izcelties ar saviem palīgiem un produktivitātes rīkiem.

FS-DFM Apple ekosistēmā: Siri, Apple Intelligence un iWork uzmanības centrā

Apple galvenais mērķis ir integrēt FS-DFM (vai atvasinātos modeļus) savā ekosistēmā, īpaši Siri, Apple Intelligence funkcijās un iWork komplektāJa modelis, kas spēj ātri un labi rakstīt, darbotos ar zemu latentumu iPhone, iPad un Mac tālruņos, lietotāja pieredze varētu ievērojami uzlaboties salīdzinājumā ar to, kas mums ir šodien.

Siri lietotnē šāda veida modelis ļautu detalizētākas, kontekstuālākas un ātrākas atbildesAtkāpjoties no ierobežotā un nedaudz neveiklā palīga, ko pašlaik uztver daudzi lietotāji, Apple Intelligence varētu ievērojami gūt labumu no tādām funkcijām kā rakstīšanas palīdzība, stila korekcija un kopsavilkumu ģenerēšana, pateicoties spējai izveidot garas rindkopas bez kaitinošiem gaidīšanas laikiem.

iWork ietvaros tādi rīki kā Pages, Numbers vai Keynote varētu gūt ievērojamu labumu, ja tie tiktu integrēti. ģeneratīvās funkcijas, kas palīdz veidot dokumentu melnrakstus, piedāvāt prezentācijas vai strukturēt datusPatiesībā Apple nesen iegādātais iWork.ai domēns veicina spekulācijas par milzīgu ģeneratīvā mākslīgā intelekta funkciju pieplūdumu šajā biroja programmatūras komplektā.

Kā Microsoft sevi pozicionē: Copilot un tā jaunie MAI-Voice-1 un MAI-1 priekšskatījuma modeļi

Kamēr Apple pilnveido FS-DFM, Microsoft nestāv uz vietas. Uzņēmums ir paziņojis Divi jauni mākslīgā intelekta modeļi, kas cieši saistīti ar Copilot: MAI-Voice-1 un MAI-1-previewViņu mērķis ir saglabāt Copilot kā etalonu produktivitātes asistentu jomā un vēl vairāk paplašināt tā iespējas.

MAI-Voice-1 ir balss ģenerēšanas modelis, kas izceļas ar savu ārkārtējo ātrumuMicrosoft apgalvo, ka, izmantojot vienu GPU, tas var radīt vienas minūtes audio mazāk nekā vienā sekundē, padarot to īpaši pievilcīgu reāllaika lietojumprogrammām: teksta ierunāšanai, e-pasta lasīšanai, tiešraides podkāstiem vai dabiskākiem balss palīgiem.

Šis balss modelis jau ir pieejams integrēta pakalpojumā Copilot Daily un Podcasts funkcijāUn Microsoft ir arī sācis to ieviest Copilot Labs platformā, lai lietotāji to varētu izmēģināt tieši no esošajiem rīkiem, negaidot turpmākas masveida izlaidumus.

No otras puses, MAI-1 priekšskatījums ir MoE (Mixture of Experts) tipa modelis, kas apmācīts ar aptuveni 15 000 NVIDIA H100 grafiskajiem procesoriemTas ir izstrādāts, lai precīzi izpildītu norādījumus un sniegtu noderīgas un tiešas atbildes uz ikdienas jautājumiem, kas ļoti atbilst Copilot galvenajam lietojumam kā uzdevumu palīgam un informācijas vaicājumam.

Microsoft plāno daļēji integrēt šo modeli Copilot platformā tuvākajās nedēļāstādējādi pastiprinot asistenta spējas gan izprast lietotāju pieprasījumus, gan ģenerēt atbildes, kas ir pielāgotākas kontekstam un pieprasītajam tonim.

Copilot: biznesa modelis, priekšrocības un ierobežojumi salīdzinājumā ar Apple

Svarīga puzles sastāvdaļa ir piekļuves modelis. Lai gan Copilot ir bezmaksas versija, kas pieejama jebkuram lietotājam.Tā patiesais potenciāls tiek atklāts ar Copilot Pro abonementu, kas maksā 22 eiro mēnesī.

Copilot semantiskā meklēšana
saistīto rakstu:
Apgūstiet semantisko meklēšanu ar Copilot palīgu

Ar Copilot Pro lietotāji iegūst prioritāra piekļuve jaunākajiem mākslīgā intelekta modeļiem un dziļa integrācija ar Microsoft 365Word, Excel, PowerPoint, Outlook un citi rīki. Uzņēmumiem tas nozīmē iespēju daudz efektīvāk automatizēt tādus uzdevumus kā rakstīšana, datu analīze, prezentāciju izveide un e-pasta pārvaldība.

Paralēli Google piedāvā savu maksas pakalpojumu, Google AI Pro, cena 21,99 eiro mēnesīkas arī pievieno 2 TB krātuves fotoattēliem, diskam un Gmail. Tāpēc konkurence nav tikai tehnoloģiska, bet arī biznesa modeļu, cenu noteikšanas un pievienotās vērtības gala lietotājam ziņā.

Saskaroties ar šo, Apple nonāk sarežģītā situācijā: Tam vēl nav publiska ģeneratīvā asistenta Copilot mērogā. Un tā tradicionāli slēgtākā pieeja sarežģī līdzīgu abonēšanas modeļu ātru ieviešanu. Pat ja tā, vietējā integrācija ierīcēs un sistēmās varētu būt tā lielākā priekšrocība, ja tam izdotos piedāvāt noderīgas mākslīgā intelekta funkcijas, nepiespiežot lietotāju abonēt vēl vienu ikmēneša pakalpojumu.

Microsoft Copilot Apple pasaulē: nevēlams viesis

Attiecības starp Microsoft un Apple ir bijušas ilgstošas, sāncensības un pragmatiskas sadarbības sajaukumsOffice jau sen ir pilntiesīgs lietotājs macOS un iOS operētājsistēmās, un tagad Copilot ir pieejama arī Mac un iPhone operētājsistēmās kā pilnībā funkcionējoša lietojumprogramma.

Šis solis padara Copilot par ļoti spēcīgs konkurences ierocis Apple ekosistēmāTieši šajā jomā Cupertino uzņēmums ir visvājākais redzamā ģeneratīvā mākslīgā intelekta ziņā. Copilot tiek pasniegts kā spēcīgs asistents un pamatversijā ir bezmaksas, kas rada nepārprotamu spiedienu uz Apple, kas līdz šim nav piedāvājis neko līdzvērtīgu šādā mērogā.

Ir taisnība, ka Apple jau gadiem ilgi izmanto mākslīgā intelekta metodes, izmantojot “Mašīnmācīšanās”, lai uzlabotu pieredzi jūsu ierīcēsViedo lietotņu ieteikumi, atverot meklētājprogrammu, frāžu automātiskā pabeigšana un modeļu atpazīšana ikdienas iOS un macOS lietošanā balstās uz mašīnmācīšanās modeļiem, lai gan Apple tos reti apzīmē kā "mākslīgo intelektu".

Ka mākslīgais intelekts ir pamanāms arī redzamākos aspektos, piemēram, Automātiska fotoattēlu uzlabošana, uzlīmju izveide no attēliem un fona noņemšana dažu sekunžu laikā. Tomēr, modelis, kas var konkurēt aci pret aci ar GPT-4, DALL·E 3 Copilot pilnīga funkcionalitāte joprojām ir galvenā nepilnība ģeneratīvajās tehnoloģijās.

Ko Copilot piedāvā šodien, ko Apple vēl nav spējis piedāvāt?

Otro pilotu var raksturot kā uzlabots tērzēšanas robots ar ģenerēšanas iespējām gan tekstam, gan attēliem, ko nodrošina OpenAI tehnoloģija (GPT-4 un DALL·E 3), bet ko Microsoft ir iestrādājis un paplašinājis ar savu pakalpojumu un funkcionalitātes slāni.

Viena no tās lielajām priekšrocībām ir tā Tas ir pastāvīgi savienots ar internetu un var piekļūt aktuālajai informācijai.Tādā veidā jūs varat atbildēt uz jautājumiem par jaunākajām tēmām, piedāvāt atjauninātus datus un saites uz atbilstošiem avotiem, kas ir ļoti vērtīgi, meklējot konkrētu informāciju, nevis tikai statisku satura ģenerēšanu.

Vizuālajā jomā Copilot ļauj Attēlu ģenerēšana no dabiskas valodas uzvednēmTāpat kā pazīstamākie attēlu ģeneratori, sistēma piedāvā izveidoto attēlu variācijas un modifikācijas, piemēram, ainas elementu maiņu, vizuālā stila pielāgošanu vai konkrētu detaļu pārveidošanu (piemēram, pūķa uguns nomaiņu pret ūdeni vai ainas novietošanu pilī).

Attiecībā uz tekstu, Copilot spēj rakstīt stāstus, apkopot dokumentus, atbildēt uz sarežģītiem jautājumiem vai ģenerēt kodu vairākās programmēšanas valodās. Tajā ir sniegti arī piemēri, papildu skaidrojumi un saites uz resursiem, piemēram, Vikipēdiju, lai tālāk izpētītu aplūkotos jēdzienus.

Tas viss nozīmē, ka mūsdienās daudzi Apple ierīču lietotāji tieši vēršas pie Copilot vai ChatGPT. uzdevumiem, kurus Apple vēl neaptver ar saviem rīkiem, radot sajūtu, ka uzņēmums šajā konkrētajā sacensībā nedaudz atpaliek.

Apple nākotne: AppleGPT, iOS 18 un likme uz ģeneratīvo mākslīgo intelektu

Baumas un noplūdes liecina, ka Apple gatavojas lielam lēcienam ar iOS 18 un macOS 15 Runājot par ģeneratīvo mākslīgo intelektu, iekšēji tiek runāts par projektu ar iesauku AppleGPT vai Ajax — patentētu valodas modeli, ko varētu integrēt vairākos operētājsistēmas slāņos.

Lielais jautājums ir Cik lielā mērā šis nākotnes modelis spēs konkurēt ar OpenAI, Microsoft vai Google? kvalitātē, daudzpusībā un ātrumā. Mākslīgā intelekta sacensības nesākās vakar: tās notiek jau gadiem ilgi un apgriezās 2023. gadā, tāpēc Apple ienāk tirgū, kurā konkurentiem jau ir stabili produkti.

Šķiet skaidrs, ka Apple plāno pārpludina savas platformas ar mākslīgā intelekta darbinātām funkcijāmKreigs Federigi, uzņēmuma galvenais programmatūras vadītājs, ir ziņots, ka ir licis iekļaut "visas iespējamās mākslīgā intelekta darbinātās funkcijas" turpmākajās iOS, iPadOS un macOS versijās, tostarp gan gala lietotāja utilītas, gan uzlabotus izstrādātāju rīkus.

Xcode ar mākslīgo intelektu: “Copilot”, ko Apple vēlas saviem izstrādātājiem

Viena no jomām, kurā Apple plāno pievērst lielu uzmanību, ir tā izstrādes platformas, īpaši XcodeSaskaņā ar Marka Gurmana atklāto informāciju, uzņēmums aptuveni gadu ir iekšēji testējis ģeneratīvās mākslīgā intelekta funkcijas Xcode ietvaros, kas ļautu... automātiski ģenerēt pirmkoda blokus, ļoti atbilstoši tam, ko GitHub Copilot jau dara citās vidēs.

Doma nav tāda, lai asistents paveiktu visu programmētāja darbu, bet gan racionalizēt atkārtotus uzdevumus, ieteikt risinājumus un palīdzēt tiem, kas mācāsDaudzi izstrādātāji jau izmanto tādus rīkus kā ChatGPT, lai atrisinātu konkrētus jautājumus, un Apple nevēlas, lai tā izstrādes vide tiktu atstāta ārpus šīs tendences.

Mērķis būtu spēt demonstrēt šīs jaunās funkcijas. gaidāmajā WWDC konferencē, paverot durvis izstrādātāju kopienai sākt to testēšanuJa FS-DFM vai saistītie modeļi labi integrējas ar Xcode, tie varētu piedāvāt ļoti zema latentuma koda ģenerēšanu un refaktorēšanu, kas ir ļoti vērtīgi, intensīvi strādājot pie lieliem projektiem.

Tikmēr Apple iegādātais iWork.ai domēns pastiprina domu, ka Arī Pages, Numbers un Keynote saņems ģeneratīvās funkcijas. kas izmanto mākslīgā intelekta iekšējos sasniegumus, tādējādi noslēdzot apli starp produktivitāti, izstrādi un lietotāja pieredzi zīmola ekosistēmā.

Copilot programmā PowerPoint
saistīto rakstu:
Copilot programmā PowerPoint: Kā ātri un droši izstrādāt mākslīgā intelekta darbinātas prezentācijas

Ņemot vērā visu šo ainu, rodas sajūta, ka FS-DFM ir galvenais tehniskais elements Apple stratēģijā, lai "panāktu" ģeneratīvā mākslīgā intelekta jomā.Tikmēr Microsoft un Google turpina virzīties uz priekšu ar jau pieejamajiem produktiem. izveidots kā Copilot un viņu jaunajiem atbalsta modeļiem, tāpēc lielā cīņa būs ne tikai par to, kuram ir ātrākais modelis, bet arī par to, kurš to vislabāk integrē lietotāju ikdienas dzīvē. Dalieties ar informāciju, un vairāk cilvēku uzzinās par šo problēmu.