Дорогие друзья!
Это отчёт о текущем состоянии дел об использовании открытых лицензий в проекте "Флора России" (CC0, CC-BY, CC-BY-NC).
ЗАЧЕМ ЭТО НУЖНО?
Использование этих лицензий необходимо для трёх основных вещей: (1) бесплатного хранения ваших фотографий, (2) передачи данных в GBIF (единая точка доступа к 90 000 баз данных о биоразнообразии), (3) участия в "Атласе флоры России".
(1) Бесплатное хранение фотографий. Платформа iNaturalist является бесплатным для пользователей сервисом с колоссальным массивом данных о биоразнообразии. Здесь совсем нет рекламы. Помимо финансовой помощи частного фонда, который взял на себя финансирование iNaturalist до 2030 года, есть ещё и программа по сокращению издержек. Так, компания Amazon покрывает счета по хранению лицензированных фотографий (см. обращение Скота Лоари по этому вопросу с переводом на русский). Издержки по хранению фотографий без лицензий несёт уже iNaturalist.
(2) Передача данных в GBIF - Global Biodiversity Information Facility. Это единая точка доступа ко всем базам данных о биоразнообразии, включая коллекции, системы наблюдений, оцифрованные архивы и прочее. В январе 2023 года iNaturalist стал крупнейшим поставщиком данных по сосудистым растениям в GBIF. Все данные в GBIF находятся в открытом доступе, который обеспечивается одним из трёх типов лицензий - CC0, CC-BY, CC-BY-NC. Россия находится на 15-м месте в мире по числу находок сосудистых растений в GBIF и на 25-м месте по всем группам.
(3) Данные для "Атласа флоры России", который создается в МГУ, мы берем из GBIF. Те массивы, которые мы формируем сами, мы целиком и полностью выкладываем в GBIF (пример №1, пример №2, пример №3). Это обеспечивает единство структуры данных и возможность быстрого и надежного их обновления. Если какие-то данные из iNaturalist не попадают в GBIF, мы их вынуждены игнорировать. Предварительные карты "Атласа флоры России" по сетке 100x100 км доступны для 9000 видов в карточках образцов Цифрового гербария МГУ (примеры: женьшень, брусника, можжевельник колючий).
ОБЩАЯ СТАТИСТИКА
В проекте "Флора России" 91,8% наблюдений размещены по CC0, CC-BY, CC-BY-NC. Живые счётчики:
В России (проверяемые наблюдения, все группы) 91,0% наблюдений размещены по CC0, CC-BY, CC-BY-NC. Живые счётчики:
ИСПОЛЬЗОВАНИЕ ЛИЦЕНЗИЙ: ТОП-НАБЛЮДАТЕЛИ
Всего пять человек из топ-500 наблюдателей флоры России снабжают свои наблюдения пометкой "Все права защищены".
@alyona_osipova
@naturalist49367
@vladimir_dvorkin
@alenalatsveeva
@daba (последние наблюдения)
Ещё три человека из Мордовии также не перешли на лицензии CC0, CC-BY, CC-BY-NC. По какой-то причине они используют экзотическую лицензию CC-BY-NC-SA, которая блокирует отправку наблюдений в GBIF. Не могу сказать, с чем это связано, но учётки явно связанные и, очевидно, это сделано сознательно (ранее эти данные были в GBIF). Возможно, участники смогут прояснить это в комментариях. Сам GBIF эту лицензию не относит к открытым и не использует в своей работе.
@irinaber
@hapugin88
@gennadiychugunov
Ещё пять участников отошли от дел, не поменяв лицензии:
@sergeyus (не появлялся с 18.11.2021)
@natalya1406 (не появлялась с 23.11.2020)
@artyom_t (не появлялся с 24.05.2023)
@annalaenko (не появлялась с 31.05.2023)
@nikita_grechesky (не появлялся с 12.12.2022)
КАК ПЕРЕЙТИ НА ЛИЦЕНЗИИ CC0, CC-BY, CC-BY-NC?
Подробная инструкция дана здесь: https://www.inaturalist.org/posts/84612 . В разделе "Контроль" можно узнать, какая у вас текущая лицензия.
КАК Я МОГУ ПОМОЧЬ?
Прежде всего, убедитесь что вы используете для своих наблюдений одну из открытых лицензий (CC0, CC-BY, CC-BY-NC). В правом нижнем углу страницы с наблюдением (браузерная версия) стоит соответствующий значок. Например, чёрный прямоугольник с буквами "CC BY-NC" и сопроводительной надписью "Некоторые права защищены".
Если вы встретите в iNaturalist у наблюдателей из России наблюдение с настройками "Все права защищены", просто киньте ему ссылку на этот пост - возможно, он передумает.
ВМЕСТО ЗАКЛЮЧЕНИЯ
Россия - ведущая страна на iNaturalist по использованию открытых лицензий. Если в мире доля наблюдений с открытыми лицензиями немного превышает 71%, то в России она находится на уровне 91%.
Если в настройках проектов существовала бы возможность настройки лицензий, то правильнее было бы включать во "Флору России" только наблюдения с лицензиями CC0, CC-BY, CC-BY-NC. Закончить этот пост я бы хотел словами Скота Лоари, со-директора iNaturalist: "The default license on iNat is the Creative Commons Attribution-Non-Commercial (CC BY-NC) license, which prohibits commercial use. However, we encourage you to choose a more open license like the Attribution license (CC BY), or to simply relinquish any rights to content you create on iNat through the CC0 dedication". ("Лицензия по умолчанию на iNaturalist – это некоммерческая лицензия Creative Commons (CC BY-NC), которая запрещает коммерческое использование. Однако мы рекомендуем вам выбрать более открытую лицензию, такую как лицензия с указанием авторства (CC BY), или даже отказаться от любых прав на контент, который вы создаете на iNaturalist (CC0)").
Подписались здесь на персональные уведомления журнала "Флора России": @natalia_gamova, @marina_gorbunova, @andrey_sdobnikov, @alexfamilyteam, @serycherny, @oleg_kosterin, @oksana_serikova, @taimyr, @yurii_basov, @madmanserg, @urij777, @tsn, @pavelsus, @denis_ivanov, @daba, @yuriydanilevsky, @julia_shner, @irinabobyleva, @tatyana_ilina, @windof, @petr_kosachev, @tanniii66, @grigoriy_yashin, @svetlanakutueva, @naturalist19358, @prokhozhyj, @forestru, @marina_sad, @tls-60, @cat_arch_angel, @irina_lebedeva83, @hoktokon, @daria_dru, @millione, @nikita_gerasin, @yuliaspiridonova, @woodmen19, @konstantin_shiryaev, @sennator, @stepan_vdovichenko, @nikolaydorofeev, @anaumkin, @svetlana-bogdanovich, @aleks-khimin, @pavelkomkov, @katya, @nikolay_sobolev, @dinanesterkova, @magrat666, @svetlana_katana, @irinasavenko, @liyixuan, @eugenia_urusova, @chimik, @naturalist57011, @tatianavladimirova, @v199rus, @wildpendulum, @dakileno, @gushchina_angelina, @pyakai, @danilinav, @npz, @tivanik, @okasana, @cyathus, @cryptobasis, @vera_sokolova, @ev_sklyar, @caseymclowe, @mallaliev, @beerolha, @olga-2021, @olga_neogeo, @pamari, @alex_iosipenko, @alexander_ignatenko, @dni_catipo, @yaroslavmagazov, @naturalist34144, @zhu_lixun, @liyixuan, @iljar, @phlomis_2019, @savva_chigarkov, @sansan_94, @elena526, @ivan_savinov, @a-travva, @aleksandrebel, @eliooblomoff, @natalya_vilyaeva, @antropov_alexandr, @xueqiqi, @sokolkov2002, @pavel_golyakov, @aeroself, @alexanderdubynin, @pushai, @kristina_k, @tatiana_dolgova, @volnushka, @alexanderlakomov, @tatiana_moscow, @tomegatherion, @vladimirpenzyak, @vikaryabkova, @xueqiqi, @ksenia_urakova, @eremchi, @siburhan, @tatiana_gerasenko, @kazakovdenis, @zhang_luyu, @natalia_trifuz, @divitre, @dmitrii_mostovoi, @olga2019kuryakova, @evgeniyaast, @anastasiaredflower99, @anastasiya_spb, @svetlanakhanty, @ekaterinavoinova, @sergilus, @osting, @ninacourlee, @evgeny_ananyev, @irine_shlojmis, @wkent, @mariasakal, @elena_tikhonova, @evgeniq_benihanov, @ankhen, @radlena, @gerda_new, @komar281, @lilia_rakitianskaia, @igalka, @ganser8, @nikolai_nakonechnyi, @repta, @olya333555, @atachkin, @chortovatravka, @lebedeva_na, @sergey_shitov, @tatyanapopova, @oksana_serikova, @cvetlana, @romankonstantinov, @ilya_rudenko, @anisimov-43, @inessa_naturalist, @olga_arishina, @olga_petrova, @krestov, @zhukovskaya, @dormidontovvladimir, @vlshl, @naturalist34144, @danila_kurochkin, @natur58, @konstantin_m, @kot_s76, @eugenia_wiskasoid, @veksha, @fretkus, @m2011, @sasha_sashevich, @olga_chernyagina, @natalya_fomina, @andrey_55, @mihail_antropov, @ceu4, @stanislav_murashkin, @anna_mitroshenkova, @ashache, @qoi, @al_fa, @odonatachr (если вы заполняли форму, но вас тут нет, значит, вы написали свой ник с ошибкой - заполните форму ещё раз).
Comentarios
Друзья, давайте также не будем забывать, что за хранение КАЖДОГО снимка, даже с правильной лицензией, кто-то платит. И что хранение КАЖДОГО снимка порождает экологический след. Поэтому давайте воздерживаться от публикации наблюдений, которые не могут быть определены до вида и принести тем самым пользу проекту. Не нужно в погоне за цифрой загружать размытые снимки и снимки отличного качества, но с заведомо неполной информацией (часть листика, ягодка и т.п.). Также не стоит в рамках одного наблюдения загружать однотипные снимки, не добавляющие никакой новой информации к уже имеющимся - выберите из группы таких снимков один, самый лучший по качеству. Хочется, конечно, занимать престижные места в общемировом зачете по количеству наблюдений, но еще престижнее, если 99,9% всех сделанных в России наблюдений будут определены до вида. Понятно, что такая цель идеальна и на практике не достижима, но к ней стоит стремиться.
Зачастую бывает, что наблюдение, не определимое до вида для одного - очевидный вид для другого. Смотрю к примеру порой на наблюдения Алексея Петровича Серегина и удивляюсь когда он злаки или осоки по одним листьям определяет. Плюс мне к примеру, по работе, часто бывает важно знать не столько вид, сколько хотя бы примерную группу видов или род, особенно если речь о засохших или еще не вегетирующих растениях. Хотя в целом, ваша мысль конечно ясна и верна
@al_fa, если вы попытаетесь даже на супер снимках сделать 99,9% определений, десятая часть будет неверными. Собственно, сам подход, что можно определить всё - в корне неверный и порождает ошибки.
Поживите на iNaturalist ещё немного, осмотритесь, пообвыкнете.
Коллеги, я уже не первый раз получаю подобное замечание о лицензии (кстати, нет "правильной" или "неправильной" - каждый сам вправе выбрать лицензию - на то нам выбор в настройках и дается, я считаю). Но осознанный отказ от передачи в GBIF данных связан со знакомством с контентом этой базы. Например, по Республике Мордовия же оказалось, что как-то получилась региональная флора там оцифрована. Просмотр находок ряда видов показало, что несколько видов привязано к одной и той же точке, но не к их реальным местам находок. Вероятно, авторы этих наборов данных так привязали, не опираясь на авторов находок, местных, региональных, ботаников, а основываясь на чем-то другом - это не мое дело, в конце концов. Но сейчас информация о распространении видов в определенных наборах данных в GBIF ложная (хотя, возможно, и не вся - и я смотрел только по Мордовии). Поэтому, работая с iNaturalist, я предпочитаю оставлять свои данные здесь. И я согласен с @al_fa - вместо погони за количеством лучше сконцентрироваться на качестве и детальности отображения географического распространения растений на определенных территориях. Именно этой цели и служит iNaturalist - заполнению "белых пятен". Надеюсь, с этим все наши коллеги согласны.
Ну и плюс компьютерное зрение учится по наборам данных. Именно по большим объемам снимков разного качества модель получает возможность предлагать виды с очень большой надежностью. Данных много не бывает. Да и вы же буквально на днях критиковали Плантариум за пренебрежительное отношение к снимкам с телефонов, если я верно помню.
@hapugin88, Анатолий, спасибо, что написали! Если есть желание помочь с геопривязками по флоре Мордовии для Цифрового гербария МГУ (поскольку по Мордовии именно мы генерим большой объем данных по растениям) - буду искренне благодарен. У нас, разумеется, до всего руки никогда не дойдут и помощь от авторов находок, местных, региональных, ботаников безусловно всячески приветствуется.
Ну и, судя по всему, вы пользуетесь GBIF, а, значит, он очень нужен
@apseregin Плантариум просто впадает в другую крайность, требуя, чтобы фотографии были высочайшего качества и сняты на профессиональное оборудование или дорогой смартфон. Данных много не бывает, но, если я правильно все понимаю, модель учится именно на идентифицированных снимках. А если вид определен неверно, и никто этого не заметил и не исправил, то тем самым и точность модели уменьшается. А снимки, которые не удалось определить до вида, в модели также не должны учитываться и тем самым для нее бесполезны. Разве не так?
@apseregin Алексей Петрович, к сожалению, времени совсем нет (к несчастью, я думаю, что у многих коллег именно так). Но новые находки по Мордовии постоянно публикуются нами (региональными ботаниками) с координатами, и зачастую со ссылками на iNaturalist. Все, конечно, в открытом доступе после выхода публикаций в свет. По Красной книге Мордовии (2017) совсем все хорошо (относительно). Данные Красной книги (в смысле места находок) в рамках работы над изданием были геопривязаны общими усилиями авторов Красной книги. Поэтому данные 2017 года имеются (можно посмотреть в Supplement к статье https://doi.org/10.1080/11956860.2020.1753293). Возможно, потом опубликуем эту информацию как набор данных в какой-то статье. После 2017 года все опубликовано или готовится к публикации. :)
@al_fa, не совсем так. Для обучения модели используются все фотографии вида. Предел 1000 штук (уже с 900 штук появляется эффект "переобученности"). Из них не менее 50% (ну или добегает до 100%, если виды обычные) должны быть исследовательского уровня. Далее, делается обязательное допущение, что вероятность того, что вид определен верно, равна 95%. Я не специалист по компьютерному зрению, но в какой-то модели они это забыли сделать, и потом даже был релиз по этому поводу. В итоге, фото из наблюдений исследовательского уровня постепенно как бы выдавливают из этой 1000 снимков неверифицированные данные. "Исследовательский статус" - это условность, сами наблюдения от его получения не становятся ни лучше, ни хуже. Да и были у нас в прошлом адские случаи, когда заводились мегакнопконажиматели, подтверждавшие вообще всё подряд. До сих пор чистим.
Что-то я сегодня говорливый. Братцы, @al_fa, @hapugin88, спасибо, что мы тут все неравнодушные - это главное.
@hapugin88 С геопривязкой данных на iNaturalist тоже могут быть сложности. В начале сезона, когда я только начинал знакомиться с iNaturalist и делал снимки с помощью мобильного приложения, я обратил внимание на странности: просматривая свою ленту в режиме карты, а не плитки, я видел некоторые свои наблюдения в точках, где я заведомо не был. Методом тыка выяснилось, что определение координаты в приложении осуществляется методом последовательных приближений, и если в месте наблюдения плохая связь или плохая погода, то процесс привязки может остановиться на полпути и дать приблизительную координату с большим разбросом. То же самое происходит, если сохранить наблюдение в приложении до того момента, когда процесс привязки полностью завершился. Поэтому потом приходилось тратить время и с помощью дневника перемещать наблюдения на нужное место. Не уверен, что абсолютно все пользователи, особенно новички, знают про эту особенность мобильного приложения. А еще оно сильно сажает аккумулятор, поэтому я в последнее время просто делаю снимки на камеру смартфона, где проблемы с геопривязкой возникают намного реже, а потом загружаю наблюдения через сайт.
@hapugin88, в общем, я всегда готов к сотрудничеству - любые удобные для работы выгрузки из Цифрового гербария МГУ в любое время могу скинуть. Кнопку "Сообщить об ошибке" тоже у нас на портале никто по мордовской флоре никогда не нажимал, а вот по некоторым другим регионам мы здорово всё почистили.
@al_fa перепроверять свои же наблюдения в iNat - это обязательный элемент работы с ресурсом. Связь - это само собой, плюс сбои в работе. Это не исключение, а частая норма. У меня и при хорошей связи плотва оказалась в чистом поле на лугах. Поэтому после загрузки всегда нужно перепроверять.
@apseregin просто не приходило в голову перепроверять информацию Цифрового гербария МГУ.
Хотя для примера потом можно посмотреть. Спасибо за идею!
Я вообще не могу себе представить сколь-либо качественную работу с айнатом через приложение. Оно тупит, тормозит, теряет то фоточки, то метаинформацию. Плюс с телефона банально неудобно обрезать и фильтровать снимки. И да, это не говоря о не всегда хорошей связи.
Поэтому вначале снял на телефон, потом пришёл домой, слил проводком на комп, отфильтровал, обрезал, и после этого выложил через сайт.
А уж если параллельно с телефоном снимать на фотоаппарат...
Но также не нужно забывать о том, что один необработанный снимок с телефона весит столько же сколько 3-5, а то и больше снимков откадрированных. Поэтому не ленитесь немного обрезать. Это ещё и удобство для экспертов и VM. Плюс айнат ресайзит загруженные снимки, поэтому если объект занимает меньшую часть кадра, мелкие его детали просто исчезнут.
С геолокацией в Москве и Подмосковье полная беда, точки смещаются на километр - полтора
В iNaturalist лицензии для самого наблюдения (таксон+дата+геолокация+locality notes+notes), для фотографий и для аудиозаписей выбиратеся отдельно. У меня выбрано CC By. Подумалось вот что - лицензии СС кроме CCO могут представлять неудобство для тех, кто использует в научных работах большие массивы данных iNaturalist или GBIF, например, для картирования - а ведь в этих больших данных и состоит ценность этих ресурсов для науки. Допустим, условие аттрибуции BY означает, что в работе должны быть упомянуты все авторы всех использованных наблюдений с таким условием, которых там могут быть сотни. С одной стороны - это всего лишь один абзац, с другой - зачем кого-то принуждать делать эту малозначимую работу. (Я честно надеюсь что этот пункт лицензии авторы таких сводок как правило игнорируют.)
Я решил поменять лицензию для самих наблюдений на CC0 (public domain), оставив C0 BY для фотографий. И, кстати, вопрос - не составит ли несовпадение открытых лицензий наблюдения и фотографий технической проблемы для импорта в GBIF, хотя обе они среди приемлемых?
С позицией "ухода из GBIF" из-за того, что там часть данных некачественна - принципиально не согласен. Брак бывает в любых данных (в том числе и в любых собственных), а необходимость критического к ним отношения при работе никто не отменял. Но первое дело все же чтобы они были, и чем больше, тем лучше.
Не составит, поскольку GBIF не хранит на своих серверах сами фотографии, а только даёт на них ссылку. При этом iNaturalist в качестве такой ссылки отправляет в GBIF ссылку на лёгкую картинку. Если на время отключается сервер iNat, то в выдаче GBIF картинок тоже нет, а метаданные сидят.
Что касается системы кросс-ссылок при CC-BY, но GBIF генерит doi конкретной выгрузки, где учитывается связь с реально использованными записями. На сегодняшний день уже отслеживаются конкретные ссылки на образцы конкретных авторов (https://bionomia.net/ , сайт краудсорсинговый, можно поучаствовать). То же самое планировалось сделать и для наблюдений, но технически пока это сложно. В любом случае, doi выгрузок хранится и рано или поздно пригодится.
"Что касается системы кросс-ссылок при CC-BY, но GBIF генерит doi конкретной выгрузки, где учитывается связь с реально использованными записями"
Даже если "но"- это описка от "то", то все равно ничего не понял! Что такое конкретная выгрузка? Что такое связь с использованными записями? Каким образом она учитывается? Что такое конкретные образцы конкретных авторов (образцы чего, где?). Где хранится doi выгрузок и для чего? Как и для чего они пригодятся когда-нибудь?
Впрочем, наверное, не стоит тратить время на ответы - мое непонимание скорее всего связано просто с тем, что я пока не пользуюсь GBIF, а для целей картирования видов использую выгрузки именно из iNaturalist (по моим группам сверх них в гбифе мало, если вообще есть, а работать с изначально разноформатными данными неудобно), в статьях же ссылаюсь на весь массив данных из iNaturalist в GBIF - по их совершенно неудобоворимой рекомендованной ссылке iNaturalist contributors, iNautralist (2023) - которая конфликтует (путается) со ссылкой на собственно iNaturalist (2023), что не объяснить никакому copy editor.
Между прочим, поменять лицензию на наблюдения задним числом мне не удалось. Система после основательной задержки возвращает - something went wrong, cannot fetch, раз за разом - и поменяла лицензию только в десяти последних наблюдениях. Посмотрю что с этим станет завтра. Как бы не навредило это действие.
И между прочим, это говорит, что благое стремление кого-то поменять лицензию на открытую может столкнуться с техническими сложностями, к сожалению.
@oleg_kosterin, у самого первого загруженного вами наблюдения (https://www.inaturalist.org/observations/37186742 ) лицензия наблюдения уже поменялась на CC0. И в поиске тоже всё работает: https://www.inaturalist.org/observations?license=CC0&place_id=7161&view=observers
Вот тут написано про doi выгрузок из GBIF: https://www.gbif.org/ru/citation-guidelines . Мои пояснения будут всего лишь пересказом этого.
Спасибо. Я нажимал на Ctrl-F5 (чистая перезагрузка), но прогресса не видел даже у одиннадцатого.
Спасибо за ссылку, почитаю
Agregar un comentario