ftr-site-config icon indicating copy to clipboard operation
ftr-site-config copied to clipboard

tweakers.net pattern doesn't work anymore

Open CypherNL opened this issue 3 years ago • 1 comments

Version of Full-Text RSS: 3.9.11 Version of Site Patterns: 2021-05-26T01:09:01Z

Most of the time i get [unable to retrieve full-text content] error using Tweakers.net. Since the script is from 2018 and the website got redesigned in that time, the pattern should be updated.

With the point-and-click interface, i could select the body in 3 types of articles on the site. Test links in the pattern here below:

News article:

# Generated by FiveFilters.org's web-based selection tool
# Place this file inside your site_config/custom/ folder
# Source: http://siteconfig.fivefilters.org/grab.php?url=https%3A%2F%2Ftweakers.net%2Fnieuws%2F182324%2Fgoogle-probeerde-telefoonmakers-privacy-instellingen-te-laten-verstoppen.html

body: //div[contains(concat(' ',normalize-space(@class),' '),' article ')]
test_url: https://tweakers.net/nieuws/182324/google-probeerde-telefoonmakers-privacy-instellingen-te-laten-verstoppen.html

Multi-page articles (not every page can be parsed so i think the best is just do the first page one):

# Generated by FiveFilters.org's web-based selection tool
# Place this file inside your site_config/custom/ folder
# Source: http://siteconfig.fivefilters.org/grab.php?url=https%3A%2F%2Ftweakers.net%2Freviews%2F9040%2Fbluetooth-trackers-round-up-zoekt-en-gij-zult-niet-altijd-vinden.html

body: //div[contains(concat(' ',normalize-space(@class),' '),' centeredContent ')]
test_url: https://tweakers.net/reviews/9040/bluetooth-trackers-round-up-zoekt-en-gij-zult-niet-altijd-vinden.html

Software updates:

# Generated by FiveFilters.org's web-based selection tool
# Place this file inside your site_config/custom/ folder
# Source: http://siteconfig.fivefilters.org/grab.php?url=https%3A%2F%2Ftweakers.net%2Fdownloads%2F56134%2Fparallels-desktop-160.html

body: //div[contains(concat(' ',normalize-space(@class),' '),' articleColumn ')]
test_url: https://tweakers.net/downloads/56134/parallels-desktop-160.html

I'm not sure how to edit the pattern for all the 3 types of articles and test it since i use an RSS reader that uses this service (Bazqux) and not self-hosting this service by myself. I hope this helps updating the pattern.

CypherNL avatar May 30 '21 12:05 CypherNL

The config is doing nice at the moment, exept for images. BUT it seems that the site insist, that you are grabing too many pages in little time. When I curl one of these links I got the following result after about the fifth try:

          <h1>Sorry, je gaat even iets te snel</h1>
           <div class=description>
               <p>Het komt geregeld voor dat vanaf een IP veel pageviews naar Tweakers.net worden gestuurd, meer dan
                   gebruikelijk - zelfs voor hele grote organisaties zoals KPN, de Belastingdienst en de diverse
                   ministeries. Om onszelf te behoeden tegen (verdere) overlast houden we deze request tegen.</p>

               <p>
                   In de meeste gevallen zal deze melding verdwijnen na een minuut.
               </p>

               <p>Hier staat een aantal gebruikelijke oorzaken:</p>
               <ul>
                   <li>Proxy-servers, linkcheckers of crawlers die foutief ingesteld zijn en/of onze robots.txt
                       negeren
                   </li>
                   <li>Te enthousiaste feed-readers die elke paar seconden een RSS-feed opvragen</li>
                   <li>Iets wat op je toetsenbord ligt en de F5-knop ingedrukt houdt (bijvoorbeeld een kat of een
                       koptelefoon)
                   </li>
               </ul>
               <p>Naast bovenstaande redenen zijn ook misdragingen op Tweakers.net aanleiding om een IP te blokkeren.
                   Dan gaat het meestal om zaken als het doen van hack-pogingen of herhaaldelijk lastigvallen van
                   medegebruikers.</p>

               <p>Als je deze melding gedurende langere tijd te zien krijgt en je weet niet waar dat aan ligt,
                   stuur ons dan een e-mail. Ook voor verdere vragen of opmerkingen kun je mailen. Dat doe je dan naar <i><a
                       href='mailto:[email protected]?subject=Rate%20limit%20op%202003:d9:d71e:d400:b26e:bfff:fe1d:eeff%2007:59:04-2390A'>[email protected]</a></i>,
                   <b>meld daarbij ook jouw IP: 2003:d9:d71e:d400:b26e:bfff:fe1d:eeff en deze string: 07:59:04-2390A</b>.</p>
           </div>

Translation by deepl.com:

Sorry, you're going a little too fast

It happens regularly that from an IP many pageviews are sent to Tweakers.net, more than usual - even for very large organizations like KPN, the Tax Office and the various ministries. To protect ourselves from (further) inconvenience, we block this request...

I can't see, how to prevent this.

HolgerAusB avatar Feb 06 '23 07:02 HolgerAusB