WordPress v CZ - velký průzkum

✍️ Vláďa Smitka
📅 28. 04. 2015

[English version]

Automatickými nástroji byl zanalyzován zdrojový kód o velikosti téměř 4GB. Analýza samotných webů probíhala první týden v dubnu 2015, data jsou proto platná k tomuto termínu. Český web definuji buď jako web na doméně .cz nebo web na jiné doméně, který má však nastaven český jazyk (např. ).

Robot se pokoušel především určit verzi WordPressu, používanou šablonu a pluginy, které byly z frontendu stránky detekovatelné. Ze zdrojového kódu dále zkoumal, zda je nasazen Google Analytics, zda web obsahuje Facebook komponenty (like tlačítka atd.) a některé další metriky. Weby byly dále prozkoumány pomocí Majestic SEO na zpětné odkazy a byly prověřeny zmínky na sociálních sítích o hlavní stránce webu. Analýzou IP adres bylo také odhadováno, u jakého poskytovatele web běží.
Verze WP byla určována na základě 3 hlavních kritérií:

  1. Z meta hlavičky generator
  2. Ze souboru readme.html
  3. Z RSS feedu - /feed

Tam, kde tento postup neuspěl, byly prozkoumány md5 hashe některých signifikantních souborů z jádra WP a bylo využito toho, že WordPress často za vložené styly a javascripty vkládá svou verzi jako parametr ?ver=xy – dělá to kvůli tomu, aby se po aktualizaci opětovně načetly tyto soubory do cache prohlížeče. Pokud byl tento parametr použit se stejným číslem verze u více než 60 % skriptů a css, byl považován za verzi WordPressu. I přes použití těchto metod se nepodařilo s určitostí detekovat verzi u zhruba 4000 zkoumaných webů. Důvodem je pravděpodobně použití bezpečnostních pluginů, které verzi umí poměrně dobře schovat, nebo ji nahradit náhodným řetězcem.
Pluginy a šablony byly detekovány podle odkazů na javascripty a css ve složce wp-content, kde lze z cesty k souboru vyčíst jméno pluginu – např. wp-content/themes/twentytwelve/style.css ukazuje na použití defaultní šablony Twenty Twelve.

Nyní se již dostáváme k samotným výstupům průzkumu. Většina uváděných čísel je lehce zaokrouhlena pro lepší čitelnost.

Verze WP

Zásadním bodem výzkumu bylo zjistit, jaké verze WP jsou reálně používané.

Verze WordPtess v Čechách

Dobrou zprávou je, že díky automatickým aktualizacím používá většina webů nejaktuálnější dostupnou verzi, tedy v době průzkumu 4.1. 8 webů již testovalo beta verzi 4.2 (jež je v době psaní článku již finální a vyšla i první opravná verze 4.2.1). Na druhé straně osy je 7 webů používajících verzi 1.5, která vyšla na začátku roku 2005 – je tedy již více než 10 let neaktualizovaná.

Archaická verze WordPress 1.5

Webů s WordPress verzí řady 2, která vycházela do roku 2009, je již téměř 2500. Jsme přesvědčen, že tyto weby představují nezanedbatelné bezpečnostní riziko.
Pokud bychom označili verze řady 4 za aktuální, verzi 3.9 za lehce neaktuální, zbytek řady 3 za neaktualizované a verze nižší než 3 za archaické, rozložení by vypadalo takto:

Rozložení verzí WP dle aktuálnosti

Vzhledem k počtu neaktualizovaných verzí řady 3 můžeme opět hovořit o ohromném riziku. Dovoluji si tvrdit, že je v tomto případě mnohem větší než u verzí archaických, protože je pravděpodobné, že tyto verze používají mnoho neaktuálních pluginů s velkým počtem bezpečnostních děr. Toto je mnohem dramatičtější než u starších verzí, kde počet dostupných pluginů nebyl zdaleka tak vysoký a ani jejich funkcionalita nebyla tak složitá (viz třeba komunikace frontendu s backendem).

Nyní se již dostáváme k aktuálnějším verzím a zajímavý může být také přehled stále aktivně vyvíjených minor verzí (opravné verze v rámci řady - probíhá v nich automatická aktualizace např. v řadě 3.9 jsou opravné verze 3.9.1, 3.9.2,...):

Rozložení posledních minor verzí

Je znát, že automatický update funguje velmi dobře – většina minoritních verzi je ve svém nejaktuálnějším vydání.

Používané šablony

Zatím jsme se podívali pouze do jádra WordPressu. Aby web mohl být zobrazen uživateli, je třeba použít šablonu. Podíváme se tedy na nejpoužívanější šablony.

Mnoho tvůrců webu si tvoří vlastní šablony, ať již založené na jiných šablonách, nebo vytvořených úplně od začátku. Proto se nelze divit velmi vysoké různorodosti šablon – nalezl jsem přes 23 tisíc různých šablon. Ale i přesto lze najít mnoho šablon, které jsou velmi populární a jsou použity na stovkách webů.

Počet webů, kde je šablona použita Počet různých šablon (zaokrouhleno)
1

16000

2

3600

3

1300

4

600

5-10

1100

11-99

580

100+

28

Z čísel je vidět, že opravdu velká část šablon byla tvořena pouze pro jeden konkrétní web.

Žebříček 28 nejpoužívanějších šablon, které jsou použity na více než 100 webech (zastupují téměř 20 % zkoumaných webů).

Pořadí Šablona Počet webů s touto šablonou Kategorie
1 Twenty Ten

1636

defaultní

2 Twenty Twelve

1520

defaultní

3 Twenty Eleven

1477

defaultní

4 Default

844

defaultní

5 Twenty Fourteen

671

defaultní

6 Twenty Thirteen

627

defaultní

7 Avada

395

komerční

8 Graphene

382

free

9 Responsive

364

free

10 Enfold

264

komerční

11 webadresy

243

soukromá

12 Vantage

243

free

13 Twenty Fifteen

236

defaultní

14 Divi

200

komerční

15 mioweb

192

soukromá

16 Hueman

184

free

17 Mystique

174

free

18 myDyTheme2

170

soukromá

19 11-modra-facebook

167

soukromá

20 Customizr

157

free

21 Suffusion

156

free

22 Mantra

145

free

23 adbees

141

soukromá

24 The7

137

komerční

25 OptimizePress

132

komerční

26 00-ocean

121

soukromá

27 Pinboard

110

free

28 Tempera

104

free

11 % webů používá defaultní šablony WordPressu

Na jednotlivé šablony se podrobněji podíváme v některém z dalších článků.

Pluginy

Dalším krokem při tvorbě WP webu je instalace pluginů pro rozšíření funkcionality a zanesení bezpečnostních děr.

Některé šablony (především ty prémiové) v sobě již nějaké pluginy obsahují, a proto může nastat problém s jejich aktualizací. Častým problémem je, že tvůrce zakoupí prémiovou šablonu, provede v ní úpravy a tím se ztratí možnost její aktualizace. Pokud je v šabloně přibalen děravý plugin, může se jednat o vážný problém. Proto by se co nejvíce měly používat zděděné šablony (child themes) a ta rodičovská by se měla pravidelně aktualizovat. Druhým dobrým způsobem je zpracovat si upravenou funkcionalitu do vlastního pluginu.

Na základě analýzy hlavní stránky jsem nalezl celkem 160 000 pluginů (6500 různých pluginů).

Podíváme se nyní na žebříček 50 nejpoužívanějších pluginů. Tyto pluginy tvoří téměř 50 % všech nalezených.

Pořadí Plugin Počet Kategorie
1 All in One SEO Pack

18211

SEO
2 Contact Form 7

16283

Formuláře
3 Nextgen Gallery

10552

Galerie
4 Yet Another Related Posts Plugin

2645

Související
5 Slider Revolution

2512

Slider
6 WPML

2448

Lokalizace
7 Google Analytics by Yoast

2378

Analytika
8 WP-PageNavi

2234

Funkcionalita
9 Jetpack

1796

Mnoho účelů
10 Google Analyticator

1756

Analytika
11 WordPress SEO by Yoast

1665

SEO
12 WP-Polls

1581

Ankety
13 WooCommerce

1520

Ecommerce
14 qTranslate

1469

Lokalizace
15 Lightbox Plus Colorbox

1274

Lightbox
16 Easy FancyBox

1258

Lightbox
17 WP Super Cache

1213

Cache
18 W3 Total Cache

1180

Cache
19 Captcha

1060

Funkcionalita
20 LayerSlider

1056

Slider
21 Simple Lightbox

910

Obrázky
22 Visual Composer

900

Page Builder
23 MailPoet Newsletters

862

Mailing
24 Responsive Lightbox by dFactory

845

Lightbox
25 Lightbox 2 *

837

Lightbox
26 Contact Form

836

Formuláře
27 Fancybox for WordPress

825

Lightbox
28 WP jQuery Lightbox

819

Lightbox
29 WP-Table Reloaded *

772

Tabulky
30 Čestina pro WordPress *

763

Čeština
31 Meta Slider

714

Slider
32 Contact form * (nová verze: cformsII)

701

Formuláře
33 TablePress

685

Tabulky
34 Sociable *

681

Sociální sítě
35 WP Lightbox 2

625

Lightbox
36 jQuery Colorbox *

621

Lightbox
37 Photo Gallery

573

Galerie
38 WP-PostRatings

529

Funkcionalita
39 Gallery

516

Galerie
40 bbPress

484

Fórum
41 WP Google Maps

443

Mapy
42 Events Manager

442

Události
43 Page Builder by SiteOrigin

390

Page Builder
44 Facebook Like Button by BestWebSoft

387

Sociální sítě
45 Sidebar Login

383

Funkcionalita
46 YouTube

367

Videa
47 MapPress Easy Google Maps

367

Mapy
48 NextCellent Gallery - NextGEN Legacy

365

Galerie
49 Polylang

351

Lokalizace
50 MailChimp for WordPress

327

Mailing

* značí již velmi zastaralé pluginy

Na první pohled zaujmou první příčky žebříčku, kde jsou první 3 místa daleko před ostatními. Jak je z tabulky patrné, první 3 místa obsadily následující pluginy:

All in One SEO Pack

Tento plugin se stará o nápravu některých SEO fakturů WP webů. Jeho hlavní funkce jsou kanonizace odkazů, úprava tvarů titulků různých typů obsahu, zakázání indexace stránek výpisů (archivu), doplnění meta informací pro sociální sítě a tvorba sitemapy. Plugin lze použít i pro napojení na Google Analytics a ověření webu v dalších nástrojích (např. Google Webmasters Tool). Umí také upravovat soubor robots.txt - zde však pozor, plugin dříve dával do tohoto souboru zákaz procházení složky wp-includes, což se nelíbilo Google, je možné, že to stále tak dělá.

Samozřejmostí je nastavování meta keywords, description a dalších vlastností pro každý příspěvek ručně. Nicméně na klíčová slova dnes snad nic reálně nevyužívá a psát si vlastní description může být někdy spíše na škodu, pokud tomu není věnováno dostatečné úsilí.

V této oblasti však osobně preferuji plugin WordPress SEO by Yoast.

Contact Form 7

CF7 je plugin pro tvorbu kontaktních formulářů. Pomocí jednoduchých kódů si můžete navrhnou vlastní formulář s libovolným počtem políček, který bude po vyplnění zaslán na požadovaný email. K tomuto pluginu často používáme i Contact Form 7 Modules  pro vkládání skrytých políček s různými hodnotami. Hodit se může i další doplněk Contact Form 7 Honeypot, který obstará jednoduchý antispam. Výhodou tohoto pluginu je i to, že je psán pro snadnou rozšiřitelnost, je tak poměrně jednoduché ho napojit na jiný systém, například CRM.

NextGen Gallery

Ve starších verzích byl tento plugin prakticky jedinou rozumnou možností, jak získat hezkou fotogalerii. V aktuálních verzích vám pro vytvoření jednoduché galerie stačí základní funkce WP, pokud však potřebujete sofistikovanější řešení, tak může být tento plugin i přes své lehce neintuitivní ovládání dobrou volbou. Oblíbenost tohoto pluginu je vzhledem k počtu starších verzí WP pochopitelná. Pro NextGen Gallery existuje také velké množství doplňků.

Důvodem silného rozšíření prvních dvou pluginů v žebříčku jsou zcela určitě různé info/PR stránky pro podporu hlavního produktu. V průzkumu jsem například našel síť jedné agentury čítající 1600 WordPress webů.

Nalezené pluginy jsem rozdělil do několika kategorií, abych zjistil, kvůli jakým funkcím uživatelé pluginy nejčastěji používají. Nepřímo to ukazuje i na to, co WordPressu v základní instalaci chybí.

Pluginy podle typu

Jsou to především pokročilejší kontaktní formuláře. Uživatelé také často řeší zobrazování fotek v lightboxu. Zde bych věnoval pozornost 27. příčce – pluginu Fancybox for WordPress, ve kterém byla nedávno objevená bezpečnostní chyba, jež umožňuje útočníkovi vložit na web libovolný kód – nejčastěji javascript. Nebezpečnou verzi jsem detekoval na téměř 400 webech!

Téměř 50 % webů využívajících plugin Fancybox for WordPress je zranitelných.

Mnoho uživatelů chce mít také na svém webu nějaký ten slider, které však osobně nemám příliš rád. Zde jednoznačně vede placený Slider Revolution a Layer Slider. V prvním zmíněném se v posledním roce objevila kritická bezpečnostních chyba a bylo napadeno ohromné množství webů. Důvodem byla jeho častá integrace do šablon, o níž jsem psal o několik odstavců dříve, a také to, že jej bohužel mnoho webů používá nelegálně a nemá tak na aktualizace nárok. Jedná se o nejrozšířenější komerční plugin a pokud bychom spočítali cenu licencí tohoto pluginu, dostaneme se na číslo přes milion korun.

Plugin Slider Revolution jsem nalezl na více než 2500 webových stránkách a téměř na 600 z nich je ve zranitelné verzi, která jednoduše umožňuje získat útočníkovi kompletní kontrolu nad webem.

Více než 20 % webů využívajících Slider Revolution stále trpí kritickou zranitelností.

Dalším častým požadavkem je lokalizace webů do více jazyků. Druhým nejrozšířenějším komerčním pluginem je lokalizační plugin WPML, u nějž se nedávno také objevilo několik závažných bezpečnostních chyb. V tomto případě je již složité odhadnout cenu instalací, protože má licenční model pro developery, u kterého cena není závislá na počtu webů, kde je plugin použit. Dalšími oblíbenými pluginy jsou qTranslate, u nějž mi ale nevyhovuje způsob ukládání lokalizací jako komentáře v jednotlivých příspěvcích, a Polylang, který je pro WPML více než důstojným soupeřem. V oblasti lokalizací však začíná být zajímavý i plugin Babble od Automattic.

Problém, který uživatelé často řeší, je nasazení měřících kódů Google Analytics. Spousty moderních šablon má tuto možnost již ve svém nastavení, přesto je používání pluginů pro vložení kódu velmi časté. Oblíbené jsou také pluginy pro zobrazování souvisejících příspěvků, nicméně tyto pluginy jsou často poměrně výkonově náročné. Hned v závěsu jsou tak pluginy pro cachování, které dokážou výkon WP velmi podstatně zvýšit.

Zastoupení 2 hlavních cachovacích (WP Super Cache a W3 Total Cache) pluginů je srovnatelné. Osobně využívám hlavně WP Super Cache, protože je jednoúčelová (dělá pouze stránkovou cache) a svůj účel plní velmi dobře. Pro další optimalizace výkonu vždy používám příslušný Object Cache drop-in, abych snížil počet dotazů do databáze pro transientní položky, a Autoptimize pro slučování CSS a Javascriptů.

Použití Object Cache dropinu je jednoduchý způsob, jak zvýšit výkon tohoto redakčního systému. Jiné redakční systémy mají často cachování v základu vyřešené lépe, protože tvůrci WP dávají na výběr z různých technologií, které server nabízí (APC, Xcache, APCu, MemcachedRedis). Je však požadována od správce aktivita, aby daný drop-in nahrál, proto tato možnost zůstává často nevyužita a ve srovnání s jinými systémy tak WP ve dopadá ve srovnání výkonu často hůře. Pokusil jsem se tedy detekovat, kolik webů používá upravený Object Cache Backend a nalezl jsem jich cca 670. Test spočíval v dotazu na adresu /wp-content/object-cache.php, pokud server odpověděl kódem 200 a velikost odpovědi byla 0, považoval jsem to za přítomnost drop-inu pro WP_Object_Cache.

Object Cache Backend používá pouze 1% webů.

Mezi další potřeby uživatelů patří rozšiřování základní funkcionality – např. číselné stránkování nebo hodnocení příspěvků. Uživatelé také hledají možnosti vkládání Google Map, tlačítek pro sociální sítě a videí. V žebříčku se objevilo i několik pluginů pro tvorbu tabulek v editoru WordPressu, který má tuto funkcionalitu v základu vypnutou, přestože použitý TinyMCE ji obsahuje. Zde je opět znát neaktualizovanost, protože je rozšířenější plugin WP-Table reloaded než TablePress, který je jeho náhradou. Poměrně oblíbené jsou také různé Page Buildery pro tvorbu vlastního blokového layoutu v příspěvcích bez znalosti kódu. Tyto pluginy jsou často součástí komerčních šablon, které se díky nim snaží získat konkurenční výhodu, kdy si i člověk neznalý kódu může sám sestavit layout. Mnoho webů slouží ke komerčním účelům, proto nepřekvapí ani použití eshopových pluginů a pluginů pro rozesílání newsletterů.

Bezpečnostní Pluginy

Samostatnou kapitolou jsou bezpečnostní pluginy. Tyto pluginy nebylo možné předchozí metodou detekovat, protože ve zdrojovém HTML kódu nezanechávají žádné stopy. Používaných pluginů však není mnoho, a tak bylo možné napsat test přímo na míru těmto pluginům, který zjišťoval přítomnost specifických souborů. Bezpečnostní plugin se podařilo detekovat u 6% webových stránek.

Bezpečnostní pluginy pro WordPress

Nejoblíbenějším pluginem je iThemes Security, který umožňuje i zákaz přístupu k souborům prozrazující citlivé informace (jako je readme.html). Jako jediný při zapnutí této funkce blokuje i přístup k souborům readme.txt jednotlivých pluginů, které byly užitečným zdrojem informací pro tuto statistiku. Zjišťoval jsem tedy i to, kolik webů používajících iThemes Security má tuto funkcionalitu zapnutou - bylo jich cca 390.

Pořadí Bezpečnostní plugin Počet
1 iThemes Security 1900
2 WordFence 1340
3 All in One WP Security & Firewall 530
4 BulletProof Security 70

Snad všechny bezpečnostní pluginy mají možnosti jak skrýt použitou verzi systému WordPress a tak předpokládám, že za mnoho neúspěchů při zjišťování verze WP mohou právě tyto pluginy.

Kde weby běží?

Podle IP adresy jsem se dále pokoušel zjistit, u jakého poskytovatele weby běží. Pomocí programu whois (který se ptá Ripe.net) jsem zjišťoval, komu patří adresní rozsah. Metoda to není úplně přesná, protože větší poskytovatelé mají rozsahů několik, mohou být různě pojmenované a z názvu nemusí být patrné, komu opravdu patří. Velcí poskytovatelé také často pronajímají VPS nebo poskytují serverhousing, kterému dávají IP adresu ze svého rozsahu. Menší hostingy mohou jejich služeb využívat a weby, které u nich běží, tak mohly být detekovány jako weby u většího poskytovatele. Vzhledem k metodě vyhledávání jsem mohl nalézt pouze ty weby, které jsou dohledatelné - vedou na ně zpětné odkazy/mají zmínky na sociálních sítích. Reálná čísla budou o několik procent vyšší.

Pokud akceptujeme tyto nepřesnosti a fakt, že v některých případech nebylo možné rozpoznat, komu subnet patří, vyšel následující žebříček (počty webů jsou zaokrouhleny na desítky):

Pořadí Poskytovatel Počet webů
1 Wedos

13970

2 Savana

3590

3 Active24

2940

4 Český Hosting

2270

5 Stable.cz

2110

6 Forpsi

2090

7 Gransy

2000

8 Gigaserver

1480

9 Web4U

1120

10 Hosting90

980

11 cz-hosting

900

12 Ignum

760

13 Tele3

730

14 Pípni

700

15 Angelhosting

680

16 Zoner

580

Je vidět, že Wedos má ohromný náskok. Je to jistě způsobeno jeho cenovou politikou, která je pro weby na redakčním systému „zdarma“ velmi přívětivá, a silným marketingem. Wedos také sponzoroval několik prvních WordPress konferencí, což jistě neuškodilo spojení jeho jména s tímto redakčním systémem.

Zajímavé také může být rozdělení podle samotných datacenter, kde weby běží. Vzhledem k obtížnosti určení toho, kde je samotný IP rozsah provozován, jsou čísla spíše orientační.

Pořadí Poskytovatel (DC) Počet webů
1 Wedos

14000

2 Master Internet (4D)

9200

3 Casablanca

8700

4 VSHosting (TTC/ServerPark)

6700

5 SuperNetwork (TTC)

4700

6 Active24 (Tower)

2800

7 CoolHousing

2200

8 Forpsi (CZ1)

2100

9 DialTelecom (Nagano)

1600

10 Coprosys (Nagano)

770

Webservery

Dalším zkoumaným faktorem byl používaný webový server. Kvůli univerzálnosti používají hostingy téměř výhradně webserver Apache, takže nepřekvapí jeho mocné zastoupení – slouží 51 tisícům webů. Můj favorit je však webový server Nginx, přes který běží 11,5 tisíce webů. Jiné servery jsou spíše výjimkou.

Apache

51000

Nginx

11500

IIS

1100

OpenResty

200

Lighttp

50

LiteSpeed

40

Osobně jsem například o webserveru OpenResty dosud nikdy neslyšel – zjistil jsem, že se jedná o rozšířený Nginx.

Pokusil jsem se zjišťovat z hlaviček také konkrétní verze webserverů, získaná data však nejsou vypovídající, protože je informace o verzi často skrytá.

Více než 30 tisíc webserverů Apache neprozradilo svou verzi, ve zbytku je ale nejvíce rozšířena verze 2.2 - více než 18 tisíc - a verzi 2.4 prozradilo 1400 webů.
U webserveru Nginx bylo tajení obdobné, 4500 webů svou identitu neprozradilo. Ve zbytku je nejvíce rozšířená verze 1.2.1 (3500), dále verze 1.7.1 (1600) a verze 1.6.2 + 1.6.3 (1400).

Verze PHP

Podobně jako u verze webserveru nechtěla většina webů konkrétní verzi PHP prozradit – téměř 34 tisíc.

Verze PHP je důležitá i ve vztahu k výkonu - nejnovější verze přinášejí znatelný nárůst.

Zastoupení odhalených verzí:

PHP/4.3

20

PHP/4.4

60

PHP/5.0

2

PHP/5.1

50

PHP/5.2

7000

PHP/5.3

14300

PHP/5.4

7500

PHP/5.5

2800

PHP/5.6

300

Nalezl jsem i několik jednotek webů, které experimentují s HHVM.

Žebříčky webů

Nyní se podíváme na některé konkrétní weby a zařadíme je do žebříčků dle různých kritérií. V případě sociálních sítí jsou data vztažena pouze k hlavní stránce. Faktory mimo Trust flow jsou také velmi často uměle navyšovány - ať už hromadným nákupem nekvalitních odkazů, tak nákupem fanoušků na sociálních sítí a jejich interakcí.

10 webů s největším Trust flow dle Majestic SEO:

www.radegast.cz
www.pamatnik-terezin.cz
www.mediatel.cz
www.cscope.cz
www.corro.cz
www.mirc.cz
www.ancr.cz
www.neternity.cz
www.bonipueri.cz
www.zdravaprsa.cz

10 webů s největším Citation flow dle Majestic SEO:

www.autoskola-praha-ridicak.cz
web.etronic.cz
www.internetprofi.cz
www.hostivarskaprehrada.cz
new.rampusak-stity.cz
www.czech-production.cz
www.profilamas.cz
sd.kralovstilvi.cz
stepanhon.cz
www.mediatel.cz

10 webů s nějvětším počtem backlinků dle Majestic SEO:

www.geosense.cz
www.profilamas.cz
www.radegast.cz
www.neternity.cz
www.sperky-sw.cz
www.ftonline.cz
www.drosera.cz
www.a2b.cz
www.nsko.cz
www.internetprofi.cz

10 webů s největším počtem like a sdílení na Facebooku:

www.artex-pokladny.cz
www.hubnutihrou.cz
www.milionaremdoroka.cz
www.revolucnimarketing.cz
www.darujvajicko.cz
www.elitevideoacademy.cz
www.akademieretoriky.cz
www.komunikacikuspechu.cz
www.moje-sebeduvera.cz
www.pragulic.cz

V tomto seznamu je podezřelé zastoupení "infoproduktů". Nemyslím si, že by vysoké počty Like vznikly organickou cestou.

10 webů s největším počtem tweetů na Twitteru:

www.luciesvarcova.cz
www.test2014.cz
www.fotoseminar.cz
www.neurra.cz
www.stvanci.cz
www.hubnutihrou.cz
www.companyconsults.cz
www.ceskycmelak.cz
www.cafedu.cz
www.mocslov.cz
 

10 webů s největším počtem zmínek na LinkedIn:

www.tqtest.cz
www.hubnutihrou.cz
www.taichiresort.cz
www.superprijem.cz
blog.emailkampane.cz
www.laserfoto.cz
www.kompetenz.cz
www.navykybohatych.cz
www.mediatel.cz
www.inside.cz

10 webů s nejvíce +1 na GooglePlus:

www.xindlx.cz
www.doperin.cz
www.antelli.cz
www.rodinne-konstelace.cz
www.studiocamo.cz
www.artex-pokladny.cz
www.test2014.cz
www.oezentrum.cz
www.neurra.cz
www.probuzenyslon.cz

Zajímavá fakta

V předposlední části analýzy krátce představím zajímavá fakta, která průzkum ukázal.

Velikost HTML

Dále jsem zkoumal velikost samotného zdrojového HTML kódu stránek (bez skriptů, stylů a obrázků).

Velikost HTML kódu

50 % webů má velikost HTML do 28 kB.
80 % webů má velikost HTML do 45 kB.

Nalezl jsem téměř 80 webů, které mají velikost HTML více než 0,5 MB = jsou téměř nepoužitelné.

Google Analytics

Prověřoval jsem využití Google Analytics dle přítomnosti měřícího kódu na stránce. Aktálně se lze setkat se 3 typy měřícího kódu:

  1. Starý měřící kód – považován za zastaralý
  2. Universal Analytics – nový měřící kód
  3. Google Tag Manager – systém pro správu kódů - vkládá kód Universal Analytics a další kódy

Použití Google Analytics

Více než polovina webů nepoužívá Google Analytics.
27 % webů používá starý měřící kód GA.
GTM používá pouze 1 % webů (cca 650 webů).

Remarketing se přímo Google Analytics netýká, ale přesto ho sem zařadím. Ukazuje na weby, pro které je online komerce velmi důležitá.

1200 webů používá remarketing (2 %).

Google AdSense je podobný případ. Reklamu z tohoto kanálu se objevuje na téměř 9% zkoumaných webů. 3800 jich používá synchronní variantu kódu a 1800 asynchronní.

Téměř 9 % webů obsahuje reklamu z Google AdSense.

Facebook

Vliv sociálních sítí je stále silnější a tak mě zajímalo, zda webové stránky používají komponenty pro interakci s Facebookem.

Použití Facebook widgetů

Tlačítka pro Like, sdílení, nebo FanBox využívá 38 % webů.

HTTPS

Dalším z testovaných faktorů, tentokrát s vlivem na bezpečnost, bylo používání HTTPS s validním certifikátem. Mnoho webů je sice k dispozici i na zabezpečeném portu 443, ale certifikát pro svou doménu používá pouze zlomek webů.

Tip: SSL certifikát lze levně zakoupit na https://crt.simplia.cz/

Použití HTTPS

Pouze 0,24 % webů používá HTTPS s validním certifikátem.

Co na to Google PageSpeed?

Všechny weby jsem pomocí Google API nechal zkontrolovat službou Google PageSpeed Insights. Tímto testem jsem získal především data o počtu javascriptů, CSS, obrázků a jejich velikosti. Ve výsledném PageSpeed skóre jsou zahrnuty faktory, typu: zda je statický obsah optimalizovaný (zda jsou kódy minifikované a zda je možné obrázky dále bez ztráty kvality zmenšit), správné nastavení cache pro prohlížeč, povolení komprese, zbytečná přesměrování nebo doba odezvy serveru. Nejčastějšími prohřešky byla právě velikost obrázků a nenastavená cache pro prohlížeč.

Google PageSpeed skóre

Polovina webů má v Google PageSpeed skóre 75 a více.

Z dat je patrné, že na tom většina webů není příliš špatně. Některé weby na obou stranách spektra jsem podrobněji ručně zkoumal, abych zjistil pro získaly tak vysoké/nízké skóre. Důvodem pro nízké skóre (skóre 0 dostalo 360 webů) byly především ohromné neoptimalizované obrázky, kdy analyzátor zjistil, že je možné je bez ztráty kvality zmenšit o několik megabytů. Nalezl jsem i 2 weby, kde velikost obrázků na hlavní stránce přesahovala 70 MB! Nejníže hodnocené weby samozřejmě nesplňovaly ani ostatní kritéria. Weby hodnocené vysokým skóre byly především starší a jednoduché weby, kde prostě není moc co zkazit. Kvalitně udělané moderní weby dosahovaly většinou skóre kolem čísla 90. 

Téměř polovina webů má má na hlavní stránce více než 1MB obrázků.

Velikost obrázků

Pokud nahráváte fotografie na web, upravte je nejprve v grafickém editoru - zmenšete rozlišení a nastavení kvality výsledného JPG souboru. Obrázek větší než samotný monitor většinou návštěvníci stejně neocení.

Tip: Osobně pro rychlou práci s obrázky - prohlížení, změna rozměrů a ořez - používám program IrfanView - na webu je dostupná čeština i balík pluginů, který obsahuje i nástroj RIOT na ukládání obrázků pro web (ten lze stáhnout i samostatně a případně nahradit verzi používanou v IrfanView za novější, která má další nástroje pro práci s formátem PNG).

Oproti předchozímu testu velikosti HTML kódu hlavní stránky lze z nových dat spočítat celková velikost dat včetně obrázků, skriptů a kaskádových stylů. V součtu byla celková velikost všech hlavních stran webů téměř 120 GB. Podívejme se tedy na rozložení velikostí hlavních stránek:

Velikost hlavní stránky

Téměř polovina testovaných webů se s celkovou velikostí hlavní stránky vejde pod 400 kB

Zajímavé je i rozložení velikosti dle jednotlivých typů statických zdrojů:

Rozložení statických zdrojů podle velikosti

To, že největší část zabírají obrázky, není tolik překvapivé jako fakt, že javascriptů je 30 % (je pravda, že mnoho webů používá některé sdílené knihovny uložené na CDN, ale i tak je toto číslo vysoké).

Celkový počet statických zdrojů (CSS, JS a obrázků), které stránka načítá můžete vidět na následujícím grafu:

Počet zdrojů na stránce

Zde zaujme především fakt, že velká část webů načítá opravdu velké množství dalších souborů (více než 100). Mohou za to různé fotogalerie, kdy je tento stav pochopitelný, nicméně častým důvodem je také používání až zbytečného množství různých pluginů.

Téměř polovina testovaných  webů má hlavní stránce více než 30 statických zdrojů a více než 2000 webů jich má více než 100.

Počty CSS a JS souborů můžete vidět na následujících grafech:

Počet javascriptů

Počet kaskádových stylů

Stránky s malým počtem souborů jsou často již zmíněné starší jednodušší weby, ale zastoupení zde mají i moderní stránky, které správně využívají kombinování a minifikaci těchto zdrojů (např. pomocí pluginu Autoptimize).

Na počet souborů jsme se již podívali, ale jak je to s jejich celkovou velikostí?

Velikost javascriptů

Velikost kaskádových stylů

Polovině webů stačí 60 kB kaskádových stylů a 350 kB javascriptů. Nicméně 10% webů používá více než 300 kB CSS a 4% webů více než 2 MB javascriptů.

Z údajů, které mám k dispozici, si troufám tvrdit, že minimálně 25% dat je přenášeno zbytečně (a je možné, že to bude i o mnoho více).

Závěr

Průzkum potvrdil, že velká část českých WordPress webů je neaktualizovaná a obsahuje závažné bezpečnostní chyby. Dalším neřešeným problémem je také výkon webu. WordPress se velmi často uplatňuje na různých "infomarketingových" stránkách, což považuji spíše za nelichotivé. Je to dáno především jeho uživatelskou jednoduchostí - webové stránky si může udělat prakticky každý i bez jakékoliv znalosti webového programování. Bohužel právě tito uživatelé často neakceptují fakt, že je třeba se o svůj web starat.

Data z průzkumu také potvrdila oblíbenost defaultních šablon a také ukázala nejpoužívanější pluginy. Vyšlo najevo také dominantní postavení webhostera Wedos na české WP scéně.

Z těchto údajů by se téměř dalo říci, že "běžný web na WP se zabývá infomarketingem, používá základní WP šablonu , plugin pro "zapnutí SEO" a pro kontaktní formulář, není aktualizován a je hostován s minimálními náklady." Nalezneme však i velké množství profesionálnějších webů, které dbají na bezpečnost, rychlost i kvalitu obsahu. V jednoduchosti je hlavní síla tohoto redakčního systému a s trochou úsilí lze vybudovat kvalitní a reprezentativní web.

Co bude následovat dál?

Jelikož bylo objeveno mnoho webů s bezpečnostními problémy (několik desítek webů mi i přímo zablokoval antivirus), budu se postupně snažit oslovit majitele a tvůrce těchto webů a o problémech je informovat.

Na závěr přidám ještě odkaz na svou přednášku z konference Wordcamp, kde se zabývám právě problematikou aktualizací a bezpečností: http://edu.lynt.cz/course/bezpecnost-wordpressu-tipy-pro-kazdeho.

Pro získání aktuálních informací a novinek nás můžete sledovat na sociálních sítích:

  • Facebook
  • Twitter
  • Google+
  • Linked In
  •  

Další naše články na téma WordPress.

Update

Stav z průzkumu 08/2017 (~130 000 instalací):

* koláčový graf major verzí je připraven pro srovnání s https://wordpress.org/about/stats/

Update 11/2018

Nad rozšířeným datasetem byl proveden průzkum využívání WooCommerce a použitých analytických skriptů:

počet zkoumaných WP webů 161700
instalací woocommerce 8820
tarý GA ga.js 298
Universal analytics analytics.js 3423
Universal analytics gtag.js 836
GTM 696
Piwik 9
Štítky: , ,

15 comments on “WordPress v CZ - velký průzkum”

  1. Je mozne ze v prehlade pluginov nefiguruje aj nejaky security plugin, ako napr. Itheme security? Alebo sa tak dobre schovavaju ze ich nieje mozne detekovat. Tym padom by bolo zaujimave aj zistenie kolko percent webov pouziva default admin login url, pripadne username.

  2. Daniel: Bohužel bezpečnostní pluginy nelze uvedeným způsobem rozpoznat, protože jejich přítomnost nelze ze zdrojového kódu přímo vyčíst. Nicméně bych mohl udělat nějaký test zaměřený na 3 hlavní pluginy a zkusit je na webech najít. Např. iThemes security by měl jít poznat podle přítomnosti souboru wp-content/plugins/better-wp-security/readme.txt.

  3. Hledat readme.txt není 100% řešení. Mám iThemes všude a na většině webů tento soubor nelze načíst. Musím se na to ještě podívat a zakázat to všude.

  4. birkof: ano, toho jsem si vědom a proto pokud při dotazu na tento soubor dostanu 403 Forbidden, tak následně zkouším další soubory (např. history.txt, který bez ručního zásahu omezený není). Nicméně je velké množství webů , které to správně nastaveno nemá (zatím jsem jich nalezl cca 300). Bohužel se často zapomíná iThemes Security povolit modifikovat .htaccess a wp-config a nastavení pak nemá účinek...

  5. Ahoj Petře, Svět Androida byl v testu zahrnut, v době testu jste měli verzi 4.0.1. Koukal jsem do dat a zjistil jsem, že se ale u vás bohužel nepodařilo správně získat počet sociálních sdílení (zjišťovali jsme přes SharedCount.com), jinak byste byli na prvních příčkách. Časem to ještě zreviduji.

  6. Dobrý den, bylo by možné se dozvědět, z jaké IP adresy analýza probíhala? A víte jistě, zda roboti "klikali" nebo ne na případné reklamy na stránce? Minulý týden mi totiž Google AdSense zablokoval účet kvůli neplatné aktivitě (kam spadá víceméně jen falešné klikání). Jelikož ale na mém WP webu probíhalo jen pár kliknutí za týden, mohla by robot systematicky klikající na všechny odkazy na každé stránce webu způsobit tento planý poplach. V tuto chvíli jsem totiž s odvoláním neuspěl, nemám nic, čím bych mohl zjistit, jestli nějaká IP na reklamy klikala opakovaně. A přiznávám, jsem admin amatér.
    Ale pokud Google vyhodnocoval situaci za celý duben, vaše aktivita by do toho spadala a možná bych se dostal k logu alespoň od hostingu.

  7. Mvek: robot byl velice hloupý, pouze pouze stahoval obsah webu, který následně "offline" analyzoval a hledal odkazy typu href="???", ze kterých bylo vytaženo pouze doménové jméno - hlavní stránka, která byla později dále zkoumána. Pokud vím, tak AdSense generuje reklamní plochy pomocí javaskriptu, takže ve statickém kódu odkazy ani nejsou. Rozhodně tedy k žádnému klikání na reklamy nedocházelo.

    Nicméně hlavní část analýzy vašeho webu probíhala podle logu 11.4.2015 v 14:52:41. Podle výsledků této analýzy probíhaly další testy, které mohly být v dalších hodinách/dnech. Testy probíhaly většinou z adres 81.201.56.x a 93.91.51.x.

  8. Vláďa: Předpokládal jsem to, ale náhoda je blbec, článek na živě mě v tomhle praštil do očí:-). Nad Gloglo jsem zlomil zřejmě tak jako tak hůl. Díky za odpověď.

  9. Nebylo by prosim mozne uvest odkaz na ty weby, co maji pres 70MB obrazku na titulni strane? To bych vazne rad videl.

  10. Velmi povedený a podrobný článek. Vláďo přiznej se, že ti to zabralo více jak týden to zpracovat? Well done.

  11. Filipe, přiznávám, že to bylo opravdu pracné a několik dní (rozpočítaných hlavně do mnoha a mnoha večerů) jsem zpracováním opravdu strávil. Byla to i docela práce i pro naše stroje, vyhledávání jelo přes měsíc, týden jelo stahování zdrojového kódu a základní analýza, kde jsem často neodolal a koukal na mezivýsledky :-).

    Často jsem také našel další údaj, který by bylo zajímavé prozkoumat, takže jsem průběžně dopisoval nové testy. Původně jsem chtěl hlavně zmapovat používané verze, a když se poštěstí tak, udělat nějaký základní přehled pluginů a šablon - trošku se mi to však rozrostlo :-).

  12. Moc ma baví keď niekto napíše niečo originálne... ale ešte viacej keď niekto niečo originálne vytvorí. Dávam do RSS, dúfam že takýchto článkov tu bude viac a viac 🙂

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *


Lynt services s.r.o

Již 11 let vytváříme efektivnější kampaně, zrychlujeme weby a řešíme jejich bezpečnost. Kombinujeme marketing, vývoj a automatizaci.
poptávka služeb