Bfsoft.ru

Программы, сервисы, полезные советы о компьютере и интернете
18 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Архив фото ВКонтакте по ID

Скотобаза — частные фотографии в ВК 2021

Скотобаза - частные фотографии в ВК

Скотобаза — огромный сборник частных фотографий в ВК (около 100 млн.). Сервис собирает фото всех пользователей соц. сети в единый каталог.

p, blockquote 3,0,0,0,0 —>

Найти фотографии того или иного пользователя просто — достаточно ввести его id Вконтакте. А удалить сложно, если написать на e-mail создателям, то шанс невысокий, а, если внести пожертвования, то шанс повышается.

p, blockquote 4,0,1,0,0 —>

p, blockquote 5,0,0,0,0 —>

Скотобаза — частные фотографии в ВК 2021

Каким образом скотобаза собирает фотографии в ВК? Всё очень просто: сервис автоматически загружает в сборник фотографии всех пользователей в онлайн режиме . Неважно, где вы Выкладываете фото, в сообществе или профиле. Даже, если фото удалить через пару минут — оно уже будет в скотобазе.

p, blockquote 6,0,0,0,0 —>

Скотобаза

  • Самая огромная база фото в ВК;

Поэтому много недовольных пользователей обратились в Роскомнадзор , который поспособствовал тому, чтобы скотобаза была заблокирована на территории Российской Федерации. Обход блокировки невозможен.

p, blockquote 8,1,0,0,0 —>

p, blockquote 9,0,0,0,0 —>

Сбор и хранение личных данных пользователей запрещён . Хотя пользователи сами выкладывают фотографии в публичный доступ.

p, blockquote 10,0,0,0,0 —>

Скотобаза заблокирована

p, blockquote 11,0,0,0,0 —>

На данный момент сайт не работает даже с прокси-серверах. Владельцы забросили дело сразу же после блокировки. Так что можете спать спокойно и не боятся, что кто-то посмотрим Ваши личные фотографии.

p, blockquote 12,0,0,1,0 —>

skotobaza

p, blockquote 13,0,0,0,0 —>

Аналоги Скотобазы

В 2018-19 годах были разные аналоги, типа «Спалили» , но все они не работают, так как разработчики Вконтакте подкрутили скрипты, запрещающие ботам похищать частные фото.

p, blockquote 14,0,0,0,0 —>

p, blockquote 15,0,0,0,0 —>

Внимание: в интернете полно «аналогов» скотобазы, но все они мало того, что не работают, но и являются причиной взлома аккаунта ! Если Вы наткнулись на подобные сайты ни в коем случае не вводите данные от Вконтакте. Злоумышленники получат доступ к аккаунту и смогут прочитать чужие сообщения в ВК.

p, blockquote 16,0,0,0,0 —> p, blockquote 17,0,0,0,1 —>

Эпоха скотобазы и подобных сервисов прошла. Теперь хранение и распространение интимных, частных фотографий под запретом. Если не соблюдать закон — последует наказание.

Палим друзей из Вконтакте на skotobaza.org

Его функционал позволяет узнать выкладывал ли конкретный оппонент или его друзья фото в группы( это могут быть группы 18+) или скрытые альбомы.

Роскомнадзор заблокировал этот сайт, если вы живете на территории РФ, просто так зайти на него у вас не получится.

Палим друзей из Вконтакте на skotobaza.org Фото, ВКонтакте, Друзья, Скрытое, Первый пост

Готово! Пользуемся. Из-за чрезмерного количества рекламного контента сайтом пользоваться немного неудобно..

Палим друзей из Вконтакте на skotobaza.org Фото, ВКонтакте, Друзья, Скрытое, Первый пост

Надеюсь, информация была полезна.

Сайты с похожими возможностями:

как интересно. Вводишь ссылку страницы, а там тебя просят залогиниться. Фишеры могли бы быть и поумнее!

Нормально, на пикабу уже учать как гуглить. Адрес сайта еще дай где гуглить.

УЗНАЙ КТО ЗАХОДИЛ НА ТВОЮ СТРАНИЧКУ БЕЗ РЕГИСТРАЦИИ И СМС

Вопрос

Вопрос

От судьбы не уйдёшь

xxx: Да что ты знаешь о судьбе вообще?

xxx: Вовку помнишь? Мельникова?

yyy: а то конечно)

xxx: Смотри, в 2006 году он въезжает в Нексию, личный автомобиль старлея ДПС Марченко В.С.

xxx: В 2013 у него рвет тормозной шланг, и он тормозит в жопе Санта Фе, личного автомобиля майора ГИБДД Марченко В.С.

xxx: И в 2020, его подрезают, и он клюет в заднее крыло Вольво ХС60 замначальника городского ГИБДД, подполковника, плять, Марченко В.С.))))))

xxx: В 2020, с его слов, Марченко ему сказал, пока со страховой разбирались — «Мужик, ты ж меня реально преследуешь!»)))

Что-то мне это напоминает

Почти 16 лет назад я на последние «ши-ши» убегала из Ташкента. Чтобы сохранить жизнь, честь и здоровье себе и своей маленькой дочке. Чтобы работать и не голодать.
Помню, как на родине на каждом углу чурки кричали мне: «Эй, ты, урус, иди сюда, я тебя трахну» или «Вали свой расия». Даже если они шли с мечети. Особенно толпой. Хорошо запомнила.

И что же сейчас? Также вокруг чурки. Также вольготно хамят, угрожают и дерутся. Рубль больше обесценивается, всё тяжелее зарабатывать. Настоящий Ташкент.

И никакой безопасности. Даже в базовых вещах(

Не ною. И уезжать куда-то снова не хочу. Просто не понимаю, как дальше-то быть?

Среди них тоже есть(были) отличные люди

Интересно, а для них он герой?

Среди них тоже есть(были) отличные люди Дагестанцы, Герой России

Про Джонни Деппа и его новую кинокомпанию

Про Джонни Деппа и его новую кинокомпанию

Обидчивый англичанин

Обидчивый англичанин

Угадайте, у кого из них «украли детство»?

Угадайте, у кого из них «украли детство»? Дети, Африка, Грета Тунберг, Детский труд, Азия

Не всё так плохо

Не всё так плохо

Нива Twitter, Авто, Мудрость, Автомобилисты, Мечта

Миша Маваши про кавказские диаспоры и про бездействие русских

Полное видео (почти на 2 часа) тут: https://youtu.be/0ZgPLP6SIus

У всего есть обратная сторона

У всего есть обратная сторона Gudim, Арт, Общество, Длиннопост, Да_но

У всего есть обратная сторона Gudim, Арт, Общество, Длиннопост, Да_но

У всего есть обратная сторона Gudim, Арт, Общество, Длиннопост, Да_но

У всего есть обратная сторона Gudim, Арт, Общество, Длиннопост, Да_но

У всего есть обратная сторона Gudim, Арт, Общество, Длиннопост, Да_но

У всего есть обратная сторона Gudim, Арт, Общество, Длиннопост, Да_но

У всего есть обратная сторона Gudim, Арт, Общество, Длиннопост, Да_но

У всего есть обратная сторона Gudim, Арт, Общество, Длиннопост, Да_но

Один раз живём

Один раз живём

Успех гарантирован

Успех гарантирован

Наколдовала, а теперь отказывается

Наколдовала, а теперь отказывается

Произвол в больнице

7 ноября у меня умерла тёща. 1956 года рождения, вполне себе живенькая, ничего, как грится, не предвещало. Приболели мы ковидом. Но легко, насморк, температура 37.5 и то периодически. Лечились дома, показаний для госпитализации не было.
4 ноября пришёл терапевт из поликлиники, послушал нас, нацепил приблуду для измерения пульса и сатурации, все записал. Всё грит, у вас хорошо, только тёщу надо в госпиталь под присмотр, мол у неё сахарный диабет, а лекарства почти все с сахаром, боюсь, типа, её на дому наблюдать, если скаканет, скорая может не доехать. Ну и отправили мы её в госпиталь, в Мытищенскую клиническую больницу. Разместили её в отдельной палате, созванивались через каждые 4-5 часов. Тёща говорила, что палата хорошая, её накормили, вымыли, врач хороший, участливый. Сделали ей снимок КТ, поражение лёгких 5%, ерунда. Мы успокоились, все хорошо. 5 ноября, звонили ей утром, жаловалась что её врач на выходной, а дежурный врач сделал ей какой то укол в мягкие ткани, место воспалилось и болит. На жалобы дежурный врач не реагировал, сказал что у него и так много больных. Перезвонили к 5 вечера, голос плавает, как будто пьяная, сказала что ей плохо, врач на жалобы не реагирует. Сказала, дождётся своего врача, она все поправит. 6 числа не могли до неё дозвонится, а 7 числа, в 6 утра, нам позвонили из реанимации, и сказали, что тёща умерла.
Мы поехали в больницу, забрать документы и вещи. Все вещи выдали по описи, паспорт отдали. Пошли в морг, за справкой. Просидели 3 часа, хамство сотрудников неимоверное. Запросили её медкарту, что бы отфотографировать. Зам главврача Устинов Филлип Сергеевич нам заявил, что карту нам не дадут. Хотя обязаны. После долгого разговора, сказал идите к заведующей морга, у неё возьмёте. Пришли к заведующей, благо идти не далеко, и при нас заведующей позвонил этот товарищ, Устинов, и прямо запретил нам её выдавать. Сидим в больнице, в административном корпусе, ждём глав.врача. В Мин. Здравоохранения МО уже позвонил. Ждём результата. Чукча не писатель, не бросайте тапками

Читайте так же:
Подвиг Народа люди и награждения 1941-1945

В общем-то, ничего нового

В общем-то, ничего нового Группа, Алкоголь, Промискуитет, Скриншот, Фейк, Photoshop

Наблюдателя убери

Наблюдателя убери Физика, Наука и техника, Квантовая физика, Юмор, Наука, Картинка с текстом

Шарики

Шарики Комиксы, Wawawiwa, Воздушные шарики, Цыплята, Поросята, Летучая мышь, Перевел сам, Милота

На нас обкатают, на всю страну распространят?

Пикабу, обращаюсь к тебе! Я уже много лет читаю ресурс, знаю, что нас тут миллионы. Считаю, что все должны знать. В Краснодарском крае, в Анапе и во всем Анапском районе, в Геленджике, Темрюке, Голубицкой, похоже, планируют массовый отъём жилья у населения. История началась с того, что один житель случайно обнаружил снижение кадастровой стоимости своего дома в 3 раза. Ещё больше он удивился, когда обнаружил ограничения по ст.56 и 56.1. И вообще обалдел, когда прочел про это ограничение прав собственности 56.1 — резервирование земель с возможностью изъятия под государственные и муниципальные нужды (читай, новые аквадискотеки). Да и наложены они задним числом, без уведомления собственников. Информация начала распространяться. Люди начали проверять в Росреестре свои участки. И да, на всех буквально эти ограничения, и стоимость снижена у кого-то до 70%

По новому Генплану жители, те, что ближе к побережью, обнаружили, что из дома попали в другие функциональные зоны. Было ИЖС, например, стало зона отдыха. Это значит, что люди не могут ничего построить на своей земле. Да даже дом отштукатурить нельзя! Генплан ещё не вступил в силу, а некоторые уже не могут прописаться в построенных домах.

Сегодня у нас была встреча с мэром. Это тема отдельного поста. Резюмируя: мэрия пыталась уйти от неудобных вопросов, мэр не знает ничего про ограничение 56.1, глава Росреестра не знает, почему на тысячи участков наложено это ограничение (а он не может не знать). На главный вопрос — изымут у нас землю или нет — ответ не дан.

Мы понимаем, что земля тут золотая, мы понимаем, что на Западе санкции, и там строить свои дворцы уже как-то не комильфо. А бабло надо куда-то вложить. У Дерипаски, вон, в Нью-Йорке обыски прошли, вдруг, арестуют всё. А тут у моря живут какие-то бандерлоги, которым можно выплатить копеечные компенсации по сниженной кадастровой стоимости, и адьёс. И пофигу, что сюда переехало пол-Севера, отпахав там на северах всю жизнь и скопив на 5 соток у моря. Пофигу, что сюда едут с детьми-аллергиками, да и просто люди, которые хотят осуществить мечту — домик у моря. Пофигу, что тут есть люди, которые всю жизнь тут прожили (я вчера общалась с бабушкой 95 лет. Поклон ей за такую трезвость мысли в эти годы).

У нас тут сейчас бурление, так сказать. Хотя, многие ещё не знают, многие ещё не верят.

Читайте так же:
Что значит Bruh?

Но некоторые думают, что так реализуется тот самый закон о всероссийской реновации. Когда за красивым названием стоит уничтожение прав собственности простых граждан.

Кидайтесь тапками, спорьте, ругайтесь, не верьте. Но все таки проверьте свою землю по кадастровому номеру в Росреестре. Говорят, что не только в Краснодарском крае эти ограничения 56.1 наложены

Что интересного есть в архиве данных из ВК и какие занятные выводы из него можно сделать

Сегодня я выгрузил из ВК свои данные (что вы тоже можете и непременно должны сделать по вот этой ссылке) и решил посмотреть, что же интересного этот архив мне может рассказать как о самом ВК, так и обо мне

Andrey Viktorov

Nov 20, 2018 · 5 min read

Если вы знаете что такое GPG и как оно работает, рекомендую выгружать архив в зашифрованном виде. Я использовал для этого свой ключ с keybase и расшифровывал через консоль вот таким образом:

keybase pgp decrypt -i Archive_zip.gpg > Archive.zip

Удалённые сообщения

Начнем с того, что всех интересует больше всего — с удаленных сообщений.

Так как через сами выгруженные html-ки не очень удобно искать удаленные сообщения, я решил это сделать через консоль (не пугайтесь страшного скрипта (только для Mac и Linux), ВК почему-то выгружает html-ки в Windows-1251):

Судя по увиденному мною (у вас могут получится другие результаты), вк действительно не включает в эту выборку удаленные сообщения, которые были удалены (это важный момент, не отправлены!) более чем год назад, ибо мне таковых найти не удалось.

Но это совершенно не значит, что ВК действительно удаляет ваши сообщения спустя год/пол-года.

Так ж е следует помнить, что хоть вы и удаляете сообщения на своей стороне, они по-прежнему остаются у собеседника, и что происходит с ними после того, как их удалит он — загадка.

Другой забавный момент что удаленные групповые чаты так же включены в этот список как гора удаленных сообщений.

Список друзей

Из интересного там только одна вещь: дата, когда вы стали друзьями с человеком.

Удаленные записи со стены

Ничего, что было бы старше года и при этом удалено я в выгрузке не нашел. При том, что я постоянно удаляю все старые записи со стены, начиная с незапамятных времён. Удаляются ли они на самом деле? Чуть ниже подумаете вместе со мной и сами сделаете выводы.

Лайки

А вот тут и начинаются реально интересные вещи. При попытке посмотреть многие из моих лайков под фото я натыкался на такое:

Путем нехитрых манипуляций открываем страницу владельца этой фотографии:

Поясняю, в чём заключается “Ой”:

Так как страница удалена, получается, что и её контент должен быть так же удалён. Однако, по какой-то причине в ВК всё еще хранятся данные о лайках под фото с удалённых страниц. Быть может, не такие они и удалённые, эти страницы?

То же самое касается лайков удаленных фото, видео, записей, и даже заметок (не знал, что под ними можно ставить лайки), что вызывает некоторые вопросы. Если фото удалено, почему хранится информация о том, кто его лайкнул? Действительно ли записи удаляются окончательно спустя год?

Фотографии

Почему-то я не нашел тут удаленных фотографий. Даже тех, которые были удалены сравнительно недавно. Сходу не понятно, хранит ли ВК какую-либо информацию о них или нет (но судя по тому, что у удаленных фото почему-то остаются в живых лайки — наверное, хранит)

История изменений имени

Тут есть не только успешные изменения, но и отклонённые попытки. Причем, за всё время жизни страницы.

Привязанные телефоны

Аналогично с именами — тут история за всё время.

Реклама

Тут очень много занятных вещей.

Например, я попал ажно в 3370 групп ретаргетинга:

“Интересы” в моём случае были совершенно нерелевантны, ибо там огромный список из всего подряд, зато, там попались весьма забавные “системные сегменты”:

Причем, судя по всему, “системные сегменты” еще и более-менее актуальные. Например, Firefox я пользуюсь всего вторую неделю, но Chrome в списке уже нет.

Не забавным мне показался следующий пункт в этом списке:

Часто посещаемые места

ВНИМАНИЕ! НИКОГДА НЕ ДАВАЙТЕ ВК ДОСТУП К ВАШЕМУ МЕСТОПОЛОЖЕНИЮ! ОТБЕРИТЕ У МОБИЛЬНОГО КЛИЕНТА ЭТО РАЗРЕШЕНИЕ, ЕСЛИ ОНО УЖЕ ЕСТЬ!

В моем случае (так как весьма давно забрал у ВК разрешение на геолокацию) там было только одно место — наш старый офис, но было оно с пометкой “Популярное место”.

Подозреваю, что помимо “часто посещаемых мест” ВК так же хранит и “нечасто посещаемые места”, ибо сделать вывод о частоте можно только обладая историей.

Читайте так же:
Как отключить подписку Мегого на телевизоре

Повторюсь, срочно отберите у приложения разрешение на геолокацию и не загружайте в ВК фото с геометками.

Сеансы авторизации

В выгрузке указана информация о IP-адресах по 31 октября включительно. Но все мы прекрасно знаем, что ВК на самом деле хранит их куда дольше. Я обратился в саппорт с вопросом “а сколько реально хранится история IP-адресов?”, подождем ответа.

Импортированные контакты

В моем случае их оказалось сравнительно немного, но НИКОГДА не давайте ВК доступ к импорту контактов. Также я не нашел никакого способа их оттуда удалить, так что написал в саппорт и на эту тему.

Чего не нашлось в выгруженном архиве, но оно указано на странице “Защита данных” самого ВК

  1. История IP-адресов более чем за 21 день

В России ВКонтакте внесена в реестр организаторов распространения информации в интернете, поэтому обязана хранить переписку российских пользователей в течение шести месяцев, другую информацию о них — в течение года (согласно п. 3 ст. 10.1 Федерального закона «Об информации, информационных технологиях и о защите информации»).

Исходя из этого утверждения, ВК обязана хранить информацию о пользователях в течении года. Маловероятно, что ВК не хранит IP-адреса только за 21 день.

2. История поиска

К примеру, в видео есть “Недавние запросы”, но в выгруженном архиве я такого не нашел.

Выводы и дальнейшие действия

По итогу остались следующие вопросы:

  1. Почему хранятся лайки под удаленными записями, фотографиями, etc, а так же под контентом удаленных пользователей?
  2. За сколько дней реально хранится история IP-адресов?
  3. Как удалить импортированные контакты?

Конечно, самый идеальный вариант — удалиться из ВК. Понятное дело, что это не так и просто как кажется, например я это делать пока не планирую, ибо с многими людьми просто нет другой связи.

Ещё один поиск Вк по фото

Я люблю ввязываться в авантюры, и за последний месяц об одной из них я пару раз рассказывал друзьям, что вызывало восторг, поэтому решил поделиться с хабравчанами! Эта история про отважные пет-проекты, мощь опен-сорса и саморазвитие, а также основные технические детали. Надеюсь, вас это вдохновит.

1. Предыстория

В первой половине 2016-го в свет вышел нашумевший FindFace, позволяющий загрузить фото человеческого лица и находить соответствующий профиль Вк. Он вызвал большой общественный резонанс, привёл как к поиску девушек по скрытым фоткам на эскалаторах в метро и к обнародованию порноактрис с неприятными последствиями для их близких, так и к находкам потерянных близких, к нереально быстрому поиску преступников по случайным кадрам с камер, прям как в американских фильмах, только наяву.

В то время мне об этом сервисе говорили и ленты новостей, и друзья, я отвечал «ну да, прикольно», и только. Но спустя пару лет, в начале октябре 2018 на каком-то айтишном форуме я захотел связаться с одним пользователем по специфическому вопросу, вот только он туда уже давно не заходил. Зато там было его хорошее фото, и тут-то я вспомнил про крутой сервис! Побежал на их сайт и разочаровался – в сентябре 2018, буквально за месяц, они перестали предоставлять свои услуги физ.лицам, и бесплатно, и даже за деньги, перейдя в сегмент b2b и b2g. Оно и понятно, пиар уже сработал, а этических вопросов так возникает куда меньше. Но меня, законопослушного гражданина, это огорчило. И не только меня: фан-группы ФайндФейса пестрили сообщениями о том, что люди готовы заплатить в 10 раз больше, лишь бы им помогли найти нужного человека.

Я стал искать аналоги, но они все были либо точным поиском, но по крайне ограниченной выборке вроде нескольких сотен знаменитостей из Википедии, либо обширным, но почти бесполезным по точности поиском через Гугл/Яндекс.

Пару рабочих дней я размышлял, что же сложного в создании такого сервиса, который бы и точно искал людей, и по всему Вк? Решил, что ничего, ведь у меня тогда уже были базовые познания в data science, разработке и администрировании. Поэтому в пятницу, приехав с работы домой, я взялся за дело. За вечер я накидал скрипт, который парсит профили Вк, находит фото, индексирует по ним лица и сохраняет в БД. Потом просидел ещё пару суток почти без сна, заставил это дело безостановочно работать на своём сервере. Началась новая трудовая неделя, я был очень уставший, но ещё больше довольный и полный энтузиазма! Ведь мой скрипт медленно, но безостановочно бежал по всему Вк.

2. Техническое устройство

2.1. Индексирование

Как вы считаете, что происходит после того, как вы отправляете запрос в любую крупную поисковую систему? Не важно, поиск текста в Яндексе, Google или поиск лиц в FindFace или моём сервисе. Многие, особенно не-айтишники, с трудном представляют внутренние механики технических процессов, а они бывают нетривиальны даже казалось бы в простых задачах. В случае поисковых систем магия заключается в том, что при получении запроса они не начинают обегать все страницы в интернете, ища там ваш текст, или весь Вк, сравнивая вашу фотку со всеми подряд, – это бы занимало астрономические объёмы времени. Вместо этого, поисковые системы сперва индексируют нужные данные. В случае текста (и подобных тексту данных вроде ДНК) в ближайшем приближении могут использоваться хэш-таблицы или префиксные деревья. В случае фоток тоже нужны индексы, которые сильно сократят время поиска. Для этого я использовал библиотеку face_recognition, которая позволяет преобразовать фото лица, если правильно помню, в 128-мерный вектор признаков со значениями от -1 до 1 (далее буду называть его просто хэш). Для поиска человека по фото, нам нужно просто пробежаться по всем фото из коллекции, считая евклидово расстояние между векторами-хэшами из запроса и набора – подобный пример, реализованный на Питоне, доступен на сайте упомянутой библиотеки. Да, такая операция поиска тоже не дешёвая, но об этом позже.

Читайте так же:
Ошибка 404 что это и как исправить?

В ближайшие недели я стал прикидывать темпы роста и понимать, что надо масштабироваться. API Вк работает на токенах доступа, и каждый токен имеет ограничения по числу запросов на единицу времени. Чтобы увеличить их число, я создал несколько приложений Вк с формами получения токенов и попросил пару десятков друзей выполнить там простой клик, что в итоге дало мне сотню токенов, которые я бережно сложил в файлик.

Конечно, не только лимиты АПИ повышать надо, но и объёмы CPU. Изначально я развернул скрипт на маленьком VPS, который создавался для простого личного сайта. В подмогу ему, я взял ещё один VPS, в несколько раз мощнее. Потом я решил, что и этого мало, взял ещё и целый выделенный сервер, который сильнее моего собственного рабочего компьютера 😀 Не энтерпрайз-левел, но производительность стала меня устраивать, хотя расходы и выросли до 15 тысяч руб/месяц, что для меня тогда было весьма ощутимой тратой.

2.2. Подобие архитектуры и DevOps’а

Если у вас есть опыт в бэкэнд разработке, то сразу встаёт вопрос, как я заставил несколько серверов работать в тандеме, а не независимо, дублируя одну и ту же работу? На самом деле, решение классическое: один микросервис брал на себя роль ведущего, мастера, хранил состояние всей системы, и выдавал задания объёмом в тысячу профилей Вк воркерам, которые быстрее или медленнее их индексировали, а результаты, в том числе промежуточные, возвращали мастеру; если же мастер за определённый промежуток времени не получал ответа от воркера, он давал это задание другому, с учётом промежуточного прогресса.

Кстати, воркеры работали в несколько потоков. Да, Питон, благодаря Global Interpreter Lock, не умеет в полный параллелизм, но много времени уходило на выгрузку фоток, а IO-операции хорошо параллелятся. Вдобавок, это позволило легко назначить каждому потоку свой токен доступа и гибко настраивать загруженность каждой машины.

Для автоматизации настройки окружения, токенов и т.п были написаны скрипты на Питоне, которые подключались к целевой машине по SSH и ставили всё что нужно. Позже я узнал, что у меня костыльный велосипед, есть качественные решения, но всё равно было интересно посмотреть подноготные детали. Из прикольного, пришлось также разобраться, что есть разные ВМ и средства виртуализации, что некоторое ПО не работает в определённых конфигурациях, благодаря чему виртуалки на Xen и OpenVZ с казалось бы одинаковыми ресурсами могут отличаться в цене на 40%.

2.3. Поиск

Помимо ролей мастера и воркера, есть роль поискового микросервиса. Проиндексированные фото Вк и айдишники их профилей сохраняются в БД, точнее, MySQL v5.7 – и алгоритм поиска я переписал с Python на SQL, что позволило сильно ускорить вычисления и выйти на больший масштаб. Но с ростом данных этого всё равно было очень мало, я думал над оптимизациями, старался переиспользовать свой опыт big data аналитики с работы, экспериментировал с разными структурами запросов и генерацией SQL-запросов Питоном, это позволило ускорить вычисления в несколько раз, что мило, но всё равно мало.

Потом я решил сделать поиск двух-этапным: преобразовывать хэши-дробные-векторы в небольшой массив байт, сохраняя каждый признак в два бита: v>0.1 и v<-0.1 (здесь), затем сравнивая число совпавших бит такого хэша у целевого лица и всех лиц в БД, а потом фильтруя записи в БД по какому-то трешхолду, отправляя на более точное и медленное сравнение только потенциальных кандидатов. Пришлось повозиться и переехать на MySQL v8, т.к в 5.7 бинарных операций нет. Но это позволило ускорить поиск ещё почти в 30 раз – а это уже клёво ^_^

Читайте так же:
Как выложить историю в ВК с компьютера

Вообще, поиск можно было бы улучшать и дальше – возможно подобрав более эффективные коэффициенты в операции выше, или переделав этот хэш, ещё было бы круто добавить параллелизм, которого в MySQL из коробки нет, партицирование, шардирование, и искать многопоточно; для этого в планах был переезд на PostgreSQL.

2.4. Другие механики

Когда у меня накопился большой объём данных, и мой сервис научился находить некоторую долю людей по случайным фоткам за приемлемое время, я стал мечтать дальше и задумываться о развитии функционала.

Ускорять время поиска можно не только ускорением самого поискового алгоритма, но и снижением выборки, например, ища профили только среди участников каких-то групп Вк. Ясное дело, здесь встаёт вопрос ограничения размера этой выборки, т.к делать запрос с «ISIN (десятки тысяч айдишников)» такое себе, а вот на паре сотен и даже тысяч работает в разы быстрее, чем полный проход БД.

Помимо прочего, я немного помешан на математике, множествах графах, а соц.сети – это прекрасные данные и множеств, и графов! Я подумал, что можно двигаться в этом направлении, позволяя задавать сложные запросы с И-ИЛИ-деревьями. Притом, искать можно не только по фото, но и по ник-неймам или ссылкам на профили в других соц.сетях – к сожалению, поисковики интернета и Вк эту инфу не очень индексируют, и я попробовал делать это сам.

Если идти ещё дальше, то можно индексировать не только Вк, но и ВотсАп, Тг перебрав все русские номера, возможно частично FB, Twi, Ig. Но это уже совсем будущее, я решил двигаться в сторону скорейшей апробации и монетизации того, что есть уже.

3. Заключение

3.2. Happy ли end?

Перед разработкой ЛК, интеграции платежей и т.п декора, я решил больше разобраться в общественных настроениях, т.к некоторые мои знакомые выражали сомнения, что им было быы приятно пользоваться, а ещё серьёзнее – быть доступными в таком сервисе. Помимо этого, примерно тогда же Вк ввёл закрытые профили, чтобы переживающее о своей безопасности люди могли спокойно скрываться, и анализируя статистику своих воркеров я видел, что число таких профилей всё растёт.

Я написал в тех поддержку Вк (тогда они ещё отвечали, ахах), аккуратно представился студентом, что хочу проводить социологические исследования сканируя большие объёмы данных Вк, в т.ч фото, ФИО и описание. Что на самом деле было правдой, с учётом моего интереса к аналитике и психологии. Они ответили, что ради статистики и небольших выборок в целом не против, но точно против какой-либо идентификации. А ещё «порадовали» тем, что будут и палки в колёса АПИ вставлять таким сервисам, и участвовать в разработке/внедрению законов, регулирующих эту деятельность. А недавно, уже в наше время, вышел законопроект, запрещающий автоматизированную обработку данных с сайтов, что по сути полностью блокирует подобные сервисы с парсингом.

В связи с этим, я принял решение о закрытии проекта, хоть это и было печально: в феврале 2019 у меня уже было проиндексировано 25% всего Вк в гигабайтах БД, притом не за бесплатно. Но у меня уже тогда был опыт различных проектов, поэтому я не жил розовыми мечтами об успешном успехе, а старался извлечь другую пользу и просто фан (:

Кстати, только в процессе написания этой статьи я понял, что принявшись за эту работу, я совсем забыл про исходный мотив, про того человека с какого-то сайта и свой вопрос к нему xD

После завершения описанной истории, я решил опубликовать исходники, но т.к там в истории коммитов засветились токены, то перезалил в новый репозиторий. Но код действительно такой, что мне самому туда страшно заглядывать.

3.2. Польза

Здесь, как и в других своих пет-проектах и стартапах, я набрался много опыта:

Разобрался с многопоточностью в Питоне.

Покопался в специфических вопросах оптимизации MySQL запросов.

Научился строить организацию приложений, файлов и комментов на будущее, чтобы оно не превращалось в спагетти.

Освоил работу из кода с SSH для настройки окружения, понял, насколько чудесен Ansible.

Разработал микросервисную архитектуру из клея и палок, что затем позволило легко понять концепции Kubernetes.

И всё это мне очень пригодилось в последующих работах и проектах.

3.3. Мораль

Выводы каждый сделает свои, но главное – не бойтесь пробовать, учиться и искать себя! Надеюсь, вам было интересно.

голоса
Рейтинг статьи
Ссылка на основную публикацию