-
Notifications
You must be signed in to change notification settings - Fork 4
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Сделать экспорт файлов и ссылок с указанием дат сообщений, в которых была найдена ссылка #23
Comments
@Lemonbrush, я добавил возможность разделения скачиваемых файлов на подпапки, имя которых будет основано на дате. Я посторался проверить все случаи, но у меня не такая внушительная коллекция данных, как у вас. Используйте изменения последнего коммита. Проверьте, работает ли это у вас. Моя логика немного отличается от вашего. |
Спасибо большое за оперативность Попробовал прогнать скрипт, однако у меня все еще появляются ошибки SSL сертификата на каждую ссылку. Я потратил какое-то время на то, чтобы разобраться как это пофиксить, но, к сожалению, моей экспертизы недостаточно для этого. Поэтому, в итоге я просто сделал мелкий скрипт, который проходится по содержимому info_links.json и скачивает данные по всем ссылкам из error проперти этого файла Если включить куки, то скрипт выдаст ошибку доступа. Хотя я уже и пароль вводил, и через sudo вызывал Вижу, что разделение по датам есть, так как в папках появились папки с датами, однако файл info_links.json, куда сливаются все ссылки, которые не удалось скачать, больше не появляется, так что мне не удалось посмотреть результаты скрипта. Если только косвенно, по пустым папкам Ошибки: |
Пользователи bs4 сталкиваются с этой проблемой, особенно с Google Chrome. В послдних версиях этот браузер блокирует доступ к своим куки, если он открыт. Я закрываю его перед началом крипта, после прочтения куки браузер можно снова открыть. Подробнее можно посмотреть тут: #21.
Можете описать свое окружение? OS, версия Python и т.д. |
Окей, без проблем. Сегодня вечером отпишу подробнее и приложу файл с логами Пока могу только сказать, что у скрипт прогоняю на macOS последней версии и гугл хром у меня не запущен |
Лог файлы выслал на почту. Один лог файл с запуска с куки, и онин без кук |
Да, я совсем забыл про документы. Они пока без разделения по папкам, релизую позже, проблему исправил. |
Спасибо. Я всегда на связи. Если нужна какая-то помощь, то по мере своих возможностей могу помочь |
@Lemonbrush https://stackoverflow.com/questions/42098126/mac-osx-python-ssl-sslerror-ssl-certificate-verify-failed-certificate-verify |
Последний коммит? |
Убрал обработку профиля, и кажется заработало. Проверяю |
@Lemonbrush
Проверьте, как у вас будет время, не забыв вытянуть последние изиенения. |
Все прекрасно работает. Спасибо большое. Этот скрипт сохранил мне как минимум пару лет жизни |
@Lemonbrush Был рад вам помочь :) |
Без проблем. Ещё раз прогоню скрипт, уже с последними изменениями, и отпишу по результатам |
Наверное проще всего будет просто поменять формат даты на такой - 2023.10.15 |
Еще после скрипта остается очень много пустых папок. Возможно хорошей идеей будет сделать пост обработку директории, в рамках которой будут удаляться все пустые папки sudo find .../Desktop/VKArchiveDownloader/output/profile/documents -type d -empty -delete |
@Lemonbrush |
Всегда актуально. Спасибо большое |
Сейчас скрипт выводит в файл links_info.json все ссылки на все вложения по каждому диалогу вразнобой. В результате получается сплошной список ссылок на все вложения подряд. При такой реализации работа с выходными данными сильно затрудняется
Как сейчас:
Как хотелось бы:
При таком решении, в каждом объекте со ссылкой будет лежать дата, которая указана в сообщении с вложением, на которое ведет эта ссылка. Тогда выходные данные будут структурированы, и работа с ними будет максимально понятной и удобной. Это особенно хорошо видно на экспорте данных из очень старых переписок, из которых получается около 20К+ фотографий
The text was updated successfully, but these errors were encountered: