Nie jesteś zalogowany.
Jeśli nie posiadasz konta, zarejestruj je już teraz! Pozwoli Ci ono w pełni korzystać z naszego serwisu. Spamerom dziękujemy!

Ogłoszenie

Prosimy o pomoc dla małej Julki — przekaż 1% podatku na Fundacji Dzieciom zdazyć z Pomocą.
Więcej informacji na dug.net.pl/pomagamy/.

#1  2012-09-02 11:11:59

  mrmarkos - Członek DUG

mrmarkos
Członek DUG
Zarejestrowany: 2012-05-17

Googlebot indeksuje stronę zarówno via http jak i https

Serwus,

jestem w trakcie kończenia pewnej strony www opartej o Joomla! 2.5.6. Strona od początku ma status offline i jest zablokowana w robots.txt w następujący sposób:

Kod:

User-agent: *
Disallow: /

W przyszłym tygodniu będzie ukończona i będę chciał wpuścić ją do indeksów.
Problem jest taki, że google zauważył ją zarówno via http jak i https.
site:mojadomena.pl daje 2 wyniki wyszukiwania i wygląda to następująco:

https://mojadomena.pl/
Opis tego wyniku jest niedostępny z powodu robots.txt – Więcej informacji.

mojadomena.pl/
Opis tego wyniku jest niedostępny z powodu robots.txt – Więcej informacji.

Obawiam się, że jak ją odblokuje w robots.txt, to zostanie zindeksowana zarówno via http jak i https.
Chciałbym aby w sieci była widoczna tylko via http, tylko nie wiem jak usunąć z indeksu https. W GWT nie widzę żadnej pomocnej opcji.

Pomyślałem o przekierowaniu 301 w .htaccess i dodałem wpis:

Kod:

RewriteCond %{HTTPS} ^on$
RewriteRule ^(.*)$ http://mojadomena.pl/$1 [R=301,L]

Lecz teraz nie mogę dostać się do https://mojadomena.pl/administrator
Jak zrobić 301, tak aby dostęp do panelu administracyjnego joomla był tylko via https a dla reszty via http ?
Dodatkowo pomyślałem o wprowadzeniu rel="canonical" aby uniknąć ewentualnego duplikowania treści. Jak należy w tym przypadku poprawnie wprowadzić rel="canonical"?

Offline

 

#2  2012-09-02 11:42:47

  Jacekalex - Podobno człowiek...;)

Jacekalex
Podobno człowiek...;)
Skąd: /dev/random
Zarejestrowany: 2008-01-07

Re: Googlebot indeksuje stronę zarówno via http jak i https

Jeśli to Apache, to panel admina i opcje dla niego możesz umieścić w znacznikach Directory, tam dać regułkę przekierowania, i co jeszcze duszyczka zapragnie.

Ja bym w Joomli w ogołe folder admina przeniósł, zmienił mu nazwę i zabezpieczył autoryzacją http dostęp do tego folderu, dodatkowo zostawił jakiś fake_admin, żeby skrypciarzy miało co witać. :D

Można też (i nawet warto), o ile jest taka możliwość, postawić w bazie 2 użyszkodników, administratora strony www, i cześć widfoczną dać na 2 osobnych uzytkownikach, i dla cześci publicznej zostawić z uprawnień sql tylko SELECT - bez tabeli z hasłami, i ewentualnie INSERT i UPDATE tylko na absolutnie niezbędnych tablelach.

Trochę zabawy z tym jest, ale w zamian człowiek ma z głowy XXX błędów i podatności Sql-injection, które w Joomli są znajdowane każdego tygodnia.

Oczywiście rewritem też można łapać komendy Sql, ale to raczej kwadratura koła, do takich rzeczy w Apachu jest mod-security.
Ale najłatwiej zabezpieczyć sie z tej strony na poziomie serwera Sql.

Pozdrawiam
;-)


W demokracji każdy naród ma taką władzę, na jaką zasługuje ;)
Si vis pacem  para bellum  ;)       |       Pozdrawiam :)

Offline

 

#3  2012-09-02 11:57:24

  Minio - Użyszkodnik

Minio
Użyszkodnik
Skąd: Poznań, Polska
Zarejestrowany: 2007-12-22
Serwis

Re: Googlebot indeksuje stronę zarówno via http jak i https

Zarejestruj się w Google webmaster tools, dodaj wszystkie możliwe wersje swojej domeny (z https i https, z www i bez) i w Konfiguracja → Ustawienia ustaw żeby wszystkie wskazywały na jedną wybraną.

Offline

 

#4  2012-09-02 16:41:27

  mrmarkos - Członek DUG

mrmarkos
Członek DUG
Zarejestrowany: 2012-05-17

Re: Googlebot indeksuje stronę zarówno via http jak i https

Tak to stoi na Apache, lecz nie wiem jak go skonfigurować w tej sytuacji.
Subdomeny www.mojadomena.pl w ogóle nie mam (na poziomie DNS usunięta, w CNAME mam tylko mail.mojadomena.pl. ustawione na ghs.google.com.). W GWT dodałem mimo wszytko z www i mam teraz:

Kod:

mojadomena.pl
www.mojadomena.pl
https://mojadomenapl
https://www.mojadomena.pl

Jedyne co mogę ustawić w GWT, to

Kod:

Preferowana domena

Nie ustawiaj preferowanej domeny
Wyświetlaj adresy URL jako www.mojadomena.pl
Wyświetlaj adresy URL jako mojadomena.pl

zarówno dla https jak i http. Nie widać żadnych ustawień co do preferowanego protokołu.
To trochę wygląda tak, że Google traktuje je jako dwie oddzielne strony. Jedna via http, druga via https :/

Ostatnio edytowany przez mrmarkos (2012-09-02 20:16:22)

Offline

 

#5  2012-09-03 10:55:17

  Minio - Użyszkodnik

Minio
Użyszkodnik
Skąd: Poznań, Polska
Zarejestrowany: 2007-12-22
Serwis

Re: Googlebot indeksuje stronę zarówno via http jak i https

Jedyne, co jeszcze na ten temat znalazłem, to:
http://www.searchenginejournal.com/seo-for-http-and-https/15055/
Z tego co tam piszą, Google traktuje strony pozyskiwane po różnych protokołach jako różne i można je usuwać z narzędzia dla webmasterów.

Offline

 

#6  2012-09-03 13:14:17

  mrmarkos - Członek DUG

mrmarkos
Członek DUG
Zarejestrowany: 2012-05-17

Re: Googlebot indeksuje stronę zarówno via http jak i https

Dzięki za sznurek. Usunąłem z GWT domenę via https. Zostawiłem przekierowanie 301 w .htaccess:

Kod:

RewriteCond %{HTTPS} ^on$
RewriteRule ^(.*)$ http://mojadomena.pl/$1 [R=301,L]

Ustawiłem http://mojadomena.pl i https://mojadomena.pl na 403 z nadzieją, że szybko wylecą z indeksu.

... skok w czasie ...

Minął jakiś czas i nie ma już śladu w indeksie po mojej domenie.
Co powinienem zrobić, by uniknąć takiej sytuacji w przyszłości? Chcę aby strona była indeksowana tylko via http, mimo że będzie dostępna również via https (to potrzebne dla panelu admina).
W linkowanym materiale, jest coś wspomniane o stosowaniu pliku robots_ssl.txt i odpowiedniego wpisu w .htaccess.
Tak więc, robię wpis w .htaccess. Który z poniższych wpisów będzie lepszy?

Kod:

RewriteCond %{SERVER_PORT} ^443$ 
RewriteRule ^robots.txt$ robots_ssl.txt

Kod:

RewriteCond %{SERVER_PORT} 443
[NC]RewriteRule ^robots.txt$ robots_ssl.txt [L]

oraz tworzę plik robots_ssl.txt o treści:

Kod:

User-agent: *
Disallow: /

Offline

 

#7  2012-09-03 15:29:26

  Minio - Użyszkodnik

Minio
Użyszkodnik
Skąd: Poznań, Polska
Zarejestrowany: 2007-12-22
Serwis

Re: Googlebot indeksuje stronę zarówno via http jak i https

Zabronić Google indeksować te strony, które muszą być dostępne po HTTPS. Możesz użyć albo robots.txt, albo w nagłówku dać <meta rel="noindex">.
Możesz również wymuszać HTTP na tych stronach, które nie mają być HTTPS i wymuszać HTTPS na tych, które mają być HTTPS. Osiągniesz to serią odpowiednich regułek rewrite.

Przynajmniej tak wynika z podlinkowanego artykułu ;) .

Offline

 

#8  2012-09-03 16:16:26

  Jacekalex - Podobno człowiek...;)

Jacekalex
Podobno człowiek...;)
Skąd: /dev/random
Zarejestrowany: 2008-01-07

Re: Googlebot indeksuje stronę zarówno via http jak i https

Można też w ustawieniach vhosta obsługującego ssl zablokować rewritem albo mod_security dostęp dla googleboota zwracając mu odp np 403 lub przekierowanie na http, filtując na podstawie user-agenta.
Choć to jest może troszkę chamskie narzędzie, za to bardzo skuteczne.


W demokracji każdy naród ma taką władzę, na jaką zasługuje ;)
Si vis pacem  para bellum  ;)       |       Pozdrawiam :)

Offline

 

#9  2012-09-04 13:51:02

  mrmarkos - Członek DUG

mrmarkos
Członek DUG
Zarejestrowany: 2012-05-17

Re: Googlebot indeksuje stronę zarówno via http jak i https

Wygląda na to, że wpis w .htaccess

Kod:

RewriteCond %{SERVER_PORT} ^443$
RewriteRule ^robots\.txt$ robots_ssl.txt [L]

oraz utworzenie robots_ssl.txt o zawartości:

Kod:

User-agent: *
Disallow: /

dają pożądany efekt.
Teraz po adresem http://mojadomena.pl/robots.txt wyświetla się zawartość:

Kod:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/

a pod https://mojadomena.pl/robots.txt

Kod:

User-agent: *
Disallow: /

Offline

 

Stopka forum

Powered by PunBB
© Copyright 2002–2005 Rickard Andersson
To nie jest tylko forum, to nasza mała ojczyzna ;-)