Die Sprache einer Website wird vielfach durch HTML-Tags übermittelt. Diese werden als HTML Sprachcodes bezeichnet und bestehen aus zwei Kleinbuchstaben. Festgelegt werden die HTML Sprachcodes (englisch Language Codes) durch die ISO Standards 639-1. Sie definieren die Sprache, auf der eine Website basiert und in der sie ausgegeben wird. Für die deutsche Sprache ist dies das Kürzel “de“.
Vornehmlich dienen die HTML Sprachcodes Suchmaschinen wie Google. Sie helfen dabei, die Inhalte einer Website einzuordnen und beispielsweise Besonderheiten in Bezug auf Sonderzeichen oder auch Anführungszeichen zu berücksichtigen. Auch für die korrekte Trennung von Silben spielt der HTML Sprachcode eine bedeutsame Rolle. Im Folgenden ist zu lesen, welche Sprachcodes es in HTML gibt und worauf dabei zu achten ist.
Inhaltsverzeichnis
HTML Sprachcodes & Duplicate Content
Sprachcodes bestehen in HTML grundsätzlich aus zwei Kleinbuchstaben, die exakt darstellen können, welche Sprache verwendet wird. Damit können Google und andere Suchmaschinen beispielsweise feststellen, ob es sich um eine Website in Deutschland (Sprachcode de) oder der Schweiz (Sprachcode ch) handelt. Damit etwaige gleiche Inhalte nicht als Duplicate Content behandelt werden, definieren die HTML Sprachcodes die Herkunft und geben klar an, dass es sich um unterschiedliche Sprachversionen einer Website handelt.
In einigen Fällen kann ein zweiteiliges Buchstabenkürzel als Kennzeichnung einer Sprache allerdings nicht ausreichen. Das trifft vor allem dann zu, wenn es sich um sprachliche Varianten wie Schweizerdeutsch oder auch Englisch in den USA oder in Großbritannien handelt. Hierfür gibt es neben dem Sprachcode an sich noch einen zusätzlichen Subcode, der auf die Besonderheiten hinweist. Gängige Beispiele für derartige mehrteilige HTML Sprachcodes sind unter anderem:
- en-us für US-Englisch
- en-gb für britisches Englisch
- de-ch für Schweizerdeutsch
- fr-ca für kanadisches Französisch
- fra-ch für die Französische Schweiz
- cs-cs für Tschechien
Beispiele für HTML Sprachcodes
Als Sprachcodes werden in HTML vornehmlich Ländercodes verwendet. Einzelne Beispiele dafür sind:
- no für Norwegisch
- et für Estnisch
- tr für Türkisch
- pt für Portugiesisch
- sl für Slowenisch
- ru für Russisch
- es für Spanisch
- lt für Litauisch
- ja für Japanisch
Eine weitere Ausnahme gibt es für den Blindtext Lorem Ipsum. Dieser ist keiner realen Sprache eindeutig zuzuordnen, sodass es für diesen tatsächlich einen eigenen Sprachcode gibt. Konkreter noch: Es handelt sich um den Sprachcode für keine Sprache. Dieser lautet zxx.
So wird der HTML Sprachcode integriert
Um einen HTML Sprachcode in einer Website einzubinden, gibt es zwei unterschiedliche Varianten. W3C macht den Vorschlag, die primäre Sprache einer Website mit dem Attribut „lang“ im <html>-Tag zu definieren. Das sieht dann beispielsweise wie folgt aus:
<html lang=“de“>
….
</html>
Mit dieser Kennzeichnung wird die deutsche Sprache als Primärsprache angegeben.
Ebenso kann der HTML Sprachcode auch mit XHTML eingebunden werden. Das sieht dann beispielsweise so aus:
<html xmlns=“//www.w3docs.com/2014/xhtml“ lang=“de“ xml:lang=“de“>
…
</html>
Auch dieses Beispiel bezieht sich auf die deutsche Sprache als Primärsprache einer Website.
Websites automatisiert übersetzen lassen
Wenn eine Website nicht in der bevorzugten Sprache zur Verfügung steht oder man die Ursprungssprache nicht beherrscht, ist es inzwischen möglich, eine Website automatisch übersetzen zu lassen. Möglich ist dies über translate.google.com und man gibt hier den Link zur Website ein und erhält im Anschluss eine übersetzte Version.
Oder auch direkt über den Google Chrome Browser. Dieser kann Websites in Spanisch, Englisch oder auch Französisch direkt übersetzen. Dazu reicht im oberen rechten Bereich zumeist ein Klick. Falls diese Funktion nicht standardmäßig angeboten wird, kann sie in den Browser-Einstellungen unter Sprachen aktiviert werden. Dies kann für einzelne Sprachen separat erfolgen.
Übersetzungen dieser Art sind in aller Regel nicht perfekt und es kann Fehler in der Grammatik und Rechtschreibung geben, allerdings ist ein grundsätzliches Verständnis damit in den allermeisten Fällen gegeben.
HTML Sprachcodes: Was wird empfohlen?
Ratsam ist es, die Sprachattribute im html-Tag einer Website stets zu hinterlegen und dabei das Sprachkürzel zu wählen, in dessen Sprache die Website verfasst wurde. Gibt es auf einer Website zudem noch Inhalte in anderen Sprachen, können entsprechende Absätze zusätzlich mit den jeweiligen HTML Sprachcodes versehen werden. Für Google und andere Suchmaschinen wird die Einordnung auf diese Weise deutlich einfacher.
Grundsätzlich sollten dafür stets die Sprachkürzel aus dem IANA-Register für Sprachkürzel verwendet werden. Innerhalb dieses Registers ist es auch möglich, die passenden HTML Sprachcodes zu recherchieren, sofern diese nicht bekannt sind.
Fazit und Zusammenfassung
HTML Sprachcodes sind durchaus praktisch und erweisen sich bei korrekter Anwendung als sehr hilfreich. Insbesondere für Suchmaschinen wird damit die Einordnung erleichtert, aber auch für User:innen können HTML Sprachcodes sinnvoll sein. Das gilt vor allem dann, wenn der Browser bereits eine Herkunft übermittelt und somit eine Zuordnung zur Sprache erfolgen kann.
Die Integration der HTML Sprachcodes ist für Betreiber:innen von Websites zudem sehr einfach mit einem HTML-Tag möglich und kann somit individuell auch für unterschiedliche Sprachvarianten umgesetzt werden.
Dadurch, dass es für jede Sprache einen eindeutigen Sprachcode gibt, sind Verwechslungen relativ einfach zu vermeiden. Für Sprachen wie Schweizerdeutsch gibt es neben dem Primärsprachcode zudem noch einen Subcode, der die Einordnung zusätzlich erleichtert. Ebenso gibt es für Inhalte mit keiner Sprache (wie zum Beispiel Blindtext) einen eigenen Sprachcode, der auch diese Inhalte klar definiert.
Somit sollten HTML Sprachcodes im besten Fall stets genutzt und korrekt angewandt werden.
Übersicht aller HTML Sprachcodes
Sprache | ISO Code |
---|---|
Abkhazian | ab |
Afar | aa |
Afrikaans | af |
Albanian | sq |
Amharic | am |
Arabic | ar |
Aragonese | an |
Armenian | hy |
Assamese | as |
Aymara | ay |
Azerbaijani | az |
Bashkir | ba |
Basque | eu |
Bengali (Bangla) | bn |
Bhutani | dz |
Bihari | bh |
Bislama | bi |
Breton | br |
Bulgarian | bg |
Burmese | my |
Belarussian (Byelorussian) | be |
Cambodian | km |
Catalan | ca |
Cherokee | – |
Chewa | – |
Chinese | zh |
Chinese (Simplified) | zh-Hans |
Chinese (Traditional) | zh-Hant |
Corsican | co |
Croatian | hr |
Czech | cs |
Danish | da |
Divehi | – |
Dutch | nl |
Edo | – |
English | en |
Esperanto | eo |
Estonian | et |
Faeroese | fo |
Farsi | fa |
Fiji | fj |
Finnish | fi |
Flemish | – |
French | fr |
Frisian | fy |
Fulfulde | – |
Galician | gl |
Gaelic (Scottish) | gd |
Gaelic (Manx) | gv |
Georgian | ka |
German | de |
Greek | el |
Greenlandic | kl |
Guarani | gn |
Gujarati | gu |
Haitian Creole | ht |
Hausa | ha |
Hawaiian | – |
Hebrew | he, iw |
Hindi | hi |
Hungarian | hu |
Ibibio | – |
Icelandic | is |
Ido | io |
Igbo | – |
Indonesian | id, in |
Interlingua | ia |
Interlingue | ie |
Inuktitut | iu |
Inupiak | ik |
Irish | ga |
Italian | it |
Japanese | ja |
Javanese | jv |
Kannada | kn |
Kanuri | – |
Kashmiri | ks |
Kazakh | kk |
Kinyarwanda (Rwanda) | rw |
Kirghiz | ky |
Kirundi (Rundi) | rn |
Konkani | – |
Korean | ko |
Kurdish | ku |
Laothian | lo |
Latin | la |
Latvian (Lettish) | lv |
Limburgish (Limburger) | li |
Lingala | ln |
Lithuanian | lt |
Macedonian | mk |
Malagasy | mg |
Malay | ms |
Malayalam | ml |
Maltese | mt |
Maori | mi |
Marathi | mr |
Mongolian | mn |
Nauru | na |
Nepali | ne |
Norwegian | no |
Occitan | oc |
Oriya | or |
Oromo (Afaan Oromo) | om |
Papiamentu | – |
Pashto (Pushto) | ps |
Polish | pl |
Portuguese | pt |
Punjabi | pa |
Quechua | qu |
Rhaeto-Romance | rm |
Romanian | ro |
Russian | ru |
Sami (Lappish) | – |
Samoan | sm |
Sangro | sg |
Sanskrit | sa |
Serbian | sr |
Serbo-Croatian | sh |
Sesotho | st |
Setswana | tn |
Shona | sn |
Sichuan Yi | ii |
Sindhi | sd |
Sinhalese | si |
Siswati | ss |
Slovak | sk |
Slovenian | sl |
Somali | so |
Spanish | es |
Sundanese | su |
Swahili (Kiswahili) | sw |
Swedish | sv |
Syriac | – |
Tagalog | tl |
Tajik | tg |
Tamazight | – |
Tamil | ta |
Tatar | tt |
Telugu | te |
Thai | th |
Tibetan | bo |
Tigrinya | ti |
Tonga | to |
Tsonga | ts |
Turkish | tr |
Turkmen | tk |
Twi | tw |
Uighur | ug |
Ukrainian | uk |
Urdu | ur |
Uzbek | uz |
Venda | – |
Vietnamese | vi |
Volapük | vo |
Wallon | wa |
Welsh | cy |
Wolof | wo |
Xhosa | xh |
Yi | – |
Yiddish | yi , ji |
Yoruba | yo |
Zulu | zu |