Обновление базы знаний СтатМодуля:
Хоть статмодуль и знаком со всеми основными ботами, поисковиками, юзерагентами, и прочими сложными для понимания вещами, весьма полезно раз в год (или около того) обновлять его базу знаний, что можно сделать прямо с этого сайта.
Процедура предельно проста, и сводится к копипасту:
- Скопируйте код из этой формы в буфер обмена:
<?php /* Выше этой строки в файле ничего не должно быть */ $searchEngines=array( '.alot.' => 'q', '.i.ua' => 'q', '.mail.ru' => array('q','tag'), '.onru.ru' => 'q', '.setooz.com' => 'query', 'a993.com' => 'q1', 'abcsok.' => 'q', 'about.' => 'terms', 'alice.' => 'qs', 'alltheweb.' => 'q', 'altavista.' => 'q', 'aol.' => array('q','query','encquery'), 'aolsvc.' => 'query', 'aport.ru' => 'r', 'ask.' => 'q', 'avantfind.com' => 'keywords', 'baidu.' => 'wd', 'bing.com' => 'q', 'bonvote.com' => 'search', 'bonweb.com' => 'search', 'club-internet.' => 'q', 'cnn.' => 'query', 'comcast.net' => 'q', 'conduit.' => 'q', 'daemon-search.com' => 'q', 'eniro.se' => 'search_word', 'exactseek.com' => array('q','query'), 'excite.' => 'search', 'find.ru' => 'text', 'gde.ru' => array('keywords','query','t','search_query','id'), 'gigablast.' => 'q', 'go.km.ru' => 'sq', 'gogo.ru' => 'q', 'googl.' => array('q','as_q'), 'google.' => array('q','as_q'), 'hotbot.' => 'query', 'icerocket.com' => 'q', 'icq.com' => 'q', 'images.google.' => array('q','prev'), 'isheyka.com' => 'q', 'kvasir.no' => 'q', 'live.com' => 'q', 'livetool.ru' => 'text', 'looksmart.' => 'qt', 'lycos.' => 'query', 'magna.qip.ru' => 'q', 'mama.' => 'query', 'mamma.' => 'query', 'meta.ua' => 'q', 'metabot.ru' => 'st', 'midco.net' => 'q', 'msn.' => 'q', 'myway.com' => 'searchfor', 'najdi.' => 'q', 'nerus.ru' => 'query', 'netscape.' => array('q','query'), 'netsprint.' => 'q', 'nigma.ru' => array('s','pq'), 'nova.rambler.ru' => 'query', 'oceanfree.net' => 'as_q', 'pchome.' => 'q', 'poisk.ngs.ru' => 'q', 'poisk.ru' => 'text', 'protonet.ru' => 'q', 'qip.ru' => 'query', 'rambler.ru' => 'words', 'sakh.com' => 'q', 'search.' => 'q', 'search.i.ua' => 'q', 'search.oboz.ua' => 'k', 'search.www.infoseek.co.jp' => 'qt', 'seznam.' => 'q', 'start.vhod.ru' => 'q', 'sweetim.com' => 'q', 'szukacz.' => 'q', 'toile.com' => 'q', 'tut.by' => 'query', 'tut.ua' => 'query', 'tyndex.ru' => 'pnam', 'ukr.net' => 'search_query', 'vinden.nl' => 'q', 'virgilio.' => 'qs', 'voila.' => 'rdata', 'wap.tele2.ru' => 'tst', 'webalta.ru' => 'q', 'ya.ru' => 'text', 'yahoo.' => array('p','k'), 'yam.' => 'k', 'yandex.' => array('text','query'), ); $bots=array( 'ABACHOBot', 'AISearchBot', 'AbiLogicBot', 'Accoona-AI-Agent', 'Acoon-Robot', 'Ad Muncher', 'Adre', 'AdsBot-Google', 'AideRSS', 'Alexibot', 'AnyApexBot', 'Aport', 'AportCatalogRobot', 'AppEngine-Google', 'Arachmo', 'Attributor/Dejan', 'B-l-i-t-z-B-O-T', 'BackDoorBot', 'Baiduspider', 'BecomeBot', 'Begun Robot Crawler', 'BeijingCrawler', 'Bimbot', 'BlitzBOT', 'BlitzBot', 'BlogSearch', 'BlowFish', 'Bond, James Bond', 'BotALot', 'BuiltBotTough', 'Bullseye', 'BunnySlippers', 'CCBot', 'COMTORBOT', 'CSSCheck', 'CazoodleBot', 'CheeseBot', 'CherryPicker', 'CherryPickerElite', 'CherryPickerSE', 'Chilkat', 'Contiki', 'ConveraCrawler', 'Copernic', 'CopyRightCheck', 'Crescent', 'Cynthia', 'DISCo Pump', 'DISCoFinder', 'DataPalm', 'DataparkSearch', 'DealGates Bot', 'Democracy', 'DiamondBot', 'Direct/2.01.000', 'DittoSpyder', 'Dolphin', 'DomainCrawler', 'DomainMonitor', 'DotBot', 'Dumbot', 'EDI', 'ELinks/0.11.7', 'EmailCollector', 'EmailSiphon', 'EmailWolf', 'EmeraldShield.com', 'Enterprise_Search', 'EroCrawler', 'EsperanzaBot', 'Exabot', 'ExtractorPro', 'FAST-WebCrawler', 'Feedster Crawler', 'FlaxCrawler/1.0', 'Flexum', 'FlickySearchBot', 'FollowSite', 'Foobot', 'FreeFind', 'FurlBot', 'FyberSpider', 'Gaisbot', 'Gaisbot', 'Geomaxenginebot', 'Gigabot', 'Girafabot', 'Google Keyword Generator', 'Google Keyword Tool', 'Google-Sitemaps', 'Googlebot', 'Googlebot 1.01.003', 'Googlebot-Image', 'Googlebot-Mobile', 'Googlebot-Mobile/2.1', 'Grub', 'HTMLParser', 'Harvest', 'Hatena Antenna', 'HouxouCrawler', 'IRLbot', 'InfoNaviRobot', 'IssueCrawler', 'Istio.Bot', 'JadynAveBot', 'James Bond', 'Java', 'Jayde crawle', 'JennyBot', 'Jetbot', 'Jyxobot', 'Kenjin Spider', 'Keyword Density', 'LNSpiderguy', 'LP Counter', 'Laboratory N3, Cybernetic biology', 'LapozzBot', 'Larbin', 'LexiBot', 'LexxeBot/1.0', 'Linguee Bot', 'LinkFeed Bot', 'LinkScan', 'LinkWalker', 'LinkextractorPro', 'LocalcomBot', 'Lupa.ru', 'MDbot', 'MJ12bot', 'MLBot', 'MSIECrawler', 'MSR-ISRCCrawler', 'MSRBOT', 'MVAClient', 'Mail.Ru', 'McBot', 'Mediapartners-Google', 'MetaTagRobot', 'Micronix', 'Microsoft Data Access', 'Microsoft URL Control', 'Microsoft-WebDAV-MiniRedir', 'Missigua Locator', 'Mister PiX', 'Mnogosearch', 'MojeekBot', 'NG-Search', 'NG/2.0', 'NICErsPRO', 'NetAnts', 'NetMechanic', 'NetResearchServer', 'Netchart Adv Crawler 1.0', 'Nigma.ru', 'Novoteka spider', 'Nutch', 'Nutch Spider', 'NutchCVS', 'OOZBOT', 'Offline Explorer', 'OmniExplorer_Bot', 'OpenAcoon', 'OpenIntelligenceData', 'Openbot', 'Openfind', 'OrangeSpider', 'Orbiter', 'OutfoxBot', 'Page2RSS', 'PageBitesHyperBot', 'PagePeeker.com', 'PerMan', 'Pompos', 'ProPowerBot', 'ProWebWalker', 'PycURL', 'Python-httplib2', 'Python-urllib', 'RAMPyBot', 'Rootle Crawler', 'Rosspoisk-crosslinks', 'RufusBot', 'SAPE.BOT is watching you', 'SBIder', 'SEO Crawler', 'SEOChat', 'SPD', 'SandCrawler', 'SapphireWebCrawler', 'ScoutJet', 'Scrubby', 'SearchSight', 'Seekbot', 'SheenBot/SheenBot-1.0.4', 'Shim-Crawler', 'ShopWiki', 'Shoula', 'SimilarPages', 'SiteBar', 'SiteSnagger', 'Snapbot', 'Snappy', 'Sogou spider', 'Sogou web spider R1', 'Sogou web spider/4.0', 'SolomonoBot/1.01', 'SpankBot', 'Speedy Spider', 'SpiderMan', 'Sqworm', 'StackRambler', 'Stanford', 'SurveyBot', 'SyndicAPI', 'SynooBot', 'Syntryx ANT Scout Chassis Pheromone', 'TMCrawler', 'TNX', 'Teoma', 'TerrawizBot', 'TheNomad', 'TheSuBot', 'Thumbnail.CZ', 'TinEye', 'True_Robot', 'TurnitinBot', 'TurtleScanner', 'TwengaBot-Discove', 'Twiceler', 'Twitturly', 'UMBC-memeta-Bot', 'UNTRUSTED', 'URL Control', 'URL_Spider_Pro', 'URLy Warning', 'VisBot', 'VoilaBot', 'Vortex', 'W3C Validator', 'W3C-checklink', 'W3C_Validator', 'WDG_Validator', 'WIRE', 'WWW-Collector-E', 'Web Downloader', 'Web Image Collector', 'WebAlta Crawler', 'WebAuto', 'WebCAT', 'WebCopier', 'WebDataCentreBot', 'WebEnhancer', 'WebSauger', 'WebStripper', 'WebVac', 'WebZIP', 'WebmasterWorldForumBot', 'Websquash.com', 'Webster Pro', 'Wells Search', 'Wget', 'WoFindeIch', 'Xaldon_WebSpider', 'Xap Spider Bot', 'Xenu Link Sleuth', 'YaDirectBot/1.0', 'Yahoo', 'Yahoo-MMCrawler', 'YahooSeeker', 'YahooSeeker-Testing', 'YandeG 1.02', 'Yandex/1.01.001', 'Yandex/1.02.000', 'Yandex/1.03.000', 'Yandex/1.03.003', 'Yandex/2.01.000', 'YandexAddurl/2.0', 'YandexBlog/0.99.101', 'YandexBlogs/0.99', 'YandexBot/3.0', 'YandexBot/3.0; MirrorDetector', 'YandexCatalog/3.0; Dyatel', 'YandexDirect/2.0; Dyatel', 'YandexDirect/3.0', 'YandexFavicons/1.0', 'YandexImages/3.0', 'YandexMedia/3.0', 'YandexMetrika/2.0', 'YandexNews/3.0', 'YandexSomething/1.0', 'YandexVideo/3.0', 'Yanga WorldSearch Bot', 'Yeti', 'YoudaoBot', 'Zao', 'Zealbot', 'Zippy Page Analyser', 'ZyBorg', 'acquia-crawle', 'adre.ru', 'aipbot', 'alexa', 'almaden.ibm.com/cs/crawler', 'appie', 'askpeter_bot', 'asterias', 'boitho.com-dc', 'boitho.com-robot', 'btbot', 'ccubee', 'cosmos', 'curl', 'discobot', 'eStyleSearch', 'findlinks', 'g2Crawler', 'geniebot', 'grub crawler', 'grub-client', 'gsa-crawler', 'hl_ftien_spider', 'hloader', 'htdig', 'httplib', 'humanlinks', 'ia_archiver', 'ichiro', 'igdeSpyder', 'kalooga/KaloogaBot', 'larbin', 'larbin_2.6.3', 'libWeb', 'libwww-perl', 'linkaGoGo domain crawler', 'lmspider', 'looksmart', 'lwp-trivial', 'moget', 'mogimogi', 'msnbot', 'msnbot-Products', 'msnbot-media', 'naver', 'netEstate NE Crawle', 'nicebot', 'nope', 'noxtrumbot', 'nutch-crawl', 'nutch.us', 'obot', 'oegp', 'polybot', 'psbot', 'psycheclone', 'rdfbot', 'renlifangbot', 'ru_viewer', 'rulinki.ru project', 'schibstedsokbot', 'searchmee', 'semanticdiscovery', 'silk', 'snap.com beta crawler', 'sogou spider', 'spanner', 'sproose', 'toCrawl/UrlDispatcher', 'turingos', 'uaportalbot', 'uberbot', 'updated', 'virus_detector', 'voyager', 'webcollage', 'wwwster', 'yacy', 'yoogliFetchAgent', 'zspider', ); $os=array( 'CSM', 'Linux', 'Ubuntu', 'Win98', 'Windows', ); $browsers=array( '4.0', '5.0', '6.0', '7.0', 'AOL', 'America', 'Amiga-AWeb', 'AmigaVoyager', 'AppleWebKit', 'Arora', 'Avant', 'BonEcho', 'BrowseX', 'Browser', 'Camino', 'Cheshire', 'Chimera', 'Chrome', 'Crazy', 'Elinks', 'Epiphany', 'Firebird', 'Firefox', 'Flock', 'Galeon', 'GranParadiso', 'Hv3', 'IBrowse', 'IceCat', 'Iceape', 'Iceweasel', 'K-Meleon', 'K-Ninja', 'Kapiko', 'Kazehakase', 'KeitaiBrowser', 'Konqueror', 'Lobo', 'MSIE', 'MYIE', 'Maxthon', 'Minefield', 'MultiZilla', 'Navigator', 'NetPositive', 'Netscape', 'OmniWeb', 'Online', 'Oregano', 'Phoenix', 'Prism', 'Safari', 'SeaMonkey', 'Shiira', 'Sleipnir', 'Slim', 'Songbird', 'Strata', 'Sunrise', 'Sylera', 'Thunderbird', 'Voyager', 'WTBrowser', 'WebCapture', 'epiphany', 'iCab', ); $agregators=array( 'Abilon', 'ActiveRefresh', 'Activeweave', 'Akregator', 'AlestiFeedBot', 'Apple-PubSub', 'AppleSyndication', 'Awasu', 'BlogBridge', 'BlogPulseLive', 'BlogSummit Bot', 'Bloglines', 'CeHttp', 'Drupal', 'Egress', 'Fastladder FeedFetcher', 'FeedDemon', 'FeedHub FeedFetcher', 'FeedHub MetaDataFetcher', 'FeedOnFeeds', 'FeedValidator', 'Feedfetcher-Google', 'Feedreader', 'Feedshow', 'Google Desktop', 'GreatNews', 'Gregarius', 'Ilium Software NewsBreak', 'Jakarta Commons-HttpClient', 'JetBrains Omea Pro', 'JetBrains Omea Reader', 'KANBAN', 'Kanban', 'Liferea', 'MagpieRSS', 'MovableType', 'NetNewsWire', 'NetNewsWire', 'Netvibes', 'NewsAlloy', 'NewsFire', 'NewsGatorOnline', 'NewzCrawler', 'PHP', 'Python-urllib', 'QMAIL', 'RSS Captor Free', 'RSS-API', 'RSS2Email.Ru', 'RSS2POP3 plugin', 'RSSMix', 'RSSOwl', 'RSSreader.ru', 'RssBandit', 'RssMix', 'RssReader', 'Sage', 'SharpReader', 'SimplePie', 'Squeet Feed Reader', 'UniversalFeedParser', 'Wasabot', 'Windows-RSS-Platform', 'Wizz RSS News Reader', 'WordPress', 'Yahoo Pipes', 'YahooFeedSeeker', 'everyfeed-spider', 'feedfinder', 'reFeed', 'topicblogs', 'wTicker', ); $mailers=array( '74.ru/mail/htmlview.php', 'e.ukr.net/cgi-bin/readmsg', 'email.ru/scripts/message', 'freemail.ukr.net/', 'hotbox.ru/message.php', 'hotmail.ru/cgi-bin/wm.cgi', 'inbox.lv/horde/imp/message.php', 'mac.mail.ru/cgi-bin/readmsg', 'mail.alsi-astana.kz', 'mail.freehost.com.ua', 'mail.gala.net/', 'mail.google.com', 'mail.km.ru/', 'mail.live.com/mail/', 'mail.lycos.com', 'mail.rambler.ru', 'mail.yahoo.com', 'mail.yandex.ru', 'mail.yandex.ua', 'mail.zp.ua', 'mbox.bigmir.net', 'mbox.i.ua', 'new.ukr.net', 'nigma.ru/index.php', 'nm.ru/cgi-bin/', 'pda.mail.ru/cgi-bin/readmsg', 'pochta.ru/message.php', 'ukrtop.com/bin/', 'webmail.masterhost.ru', 'webmail.peterhost.ru', 'win.mail.ru/cgi-bin/msglist', 'win.mail.ru/cgi-bin/readmsg', 'win.mail.ru/session/', ); /* Ниже этой строки в файле ничего не должно быть. */ ?> - Откройте Блокнот Винды (либо иной текстовый редактор, не вставляющий никаких неотображаемых символов, убивающих напрочь РНР код), и восстановите в него код из буфера обмена.
Должно получиться то же, что Вы видите на экране выше.
Если видите кракозябы, то юзайте вменяемые браузер и редактор, не занимающиеся своевольной перекодировкой стандартного виндового теста во всякие УТФы.
При этом обратите внимание, чтобы выше и ниже строчек, кричащих о том, что они крайние, не содержалось ни единого пробела или перевода строки. Иначе Нана станет сердиться и ругаться. - Сохраните содержимое редактора в файл под именем stat_signatures.php (в режиме ASCII, естественно), и разметите на хосте внутри движка Наны по пути ./data/settings/stat_signatures.php, заместив данным файлом уже имеющийся там.
Не всякий бот или SE трафик детектируется?
Вполне может быть.
Данная база знаний статмодуля строится автоматически на основе анализа трафика сайта NanoCMS.name, куда не всякий бот забредает с интенсивностью, достаточной, чтоб на него обратили внимание.
Видите какую недоработку - отпишитесь в комментах: